从原型到生产

Prototype to Production

Building an agent is easy. Trusting it is hard.

构建一个智能体很容易,但信任它却很难。

摘要

Abstract

本白皮书为 AI 智能体(AI Agents)的业务运维生命周期提供了全面的技术指南,重点关注部署、扩展与生产落地。在第四天关于评估与可观测性内容的基础之上,本指南强调了如何通过强健的 CI/CD 流水线和可扩展的基础设施,建立将智能体推向生产环境所需的必要信任。它深入探讨了将基于智能体的系统从原型过渡到企业级解决方案时面临的挑战,并对智能体之间(Agent2Agent, A2A)的互操作性给予了特别关注。本指南为 AI/ML 工程师、DevOps 专业人员和系统架构师提供了实用的见解。

引言:从原型到生产

Introduction: From Prototype to Production

你可以在几分钟、甚至几秒钟内快速搭建出一个 AI 智能体原型。但是,要把那个聪明的 Demo 变成一个企业可以信赖、能够依赖的生产级系统?这才是真正工作的开始。欢迎来到生产落地的“最后一公里”鸿沟。在与客户的实践中,我们始终观察到这样一个现象:大约 80% 的精力并不是花在智能体的核心智能上,而是花在了使其可靠和安全所需的基础设施、安全防御和验证工作上。

阅读全文 »

智能体质量

Agent Quality

The future of AI is agentic. Its success is determined by quality.

人工智能的未来在于智能体化。而它的成功,将由质量决定

引言

Introduction

我们正处于智能体时代的黎明。从可预测的、基于指令的工具,向自主的、以目标为导向的 AI 智能体(AI Agents)的转变,呈现出数十年来软件工程中最深刻的变革之一。尽管这些智能体释放了令人惊叹的能力,但其固有的非确定性(Non-determinism)使其变得不可预测,并粉碎了我们传统的质量保障模型。

本白皮书基于一个简单但颠覆性的原则,为这一新现实提供了一份实用指南:

智能体质量(Agent quality)是一项架构支柱,而非最后的测试阶段。

本指南建立在三个核心信息之上:

  • 轨迹即真相(The Trajectory is the Truth:我们必须超越仅评估最终输出的阶段。衡量智能体质量与安全性的真实标准,隐藏在其整个决策过程之中。
  • 可观测性是基石(Observability is the Foundation):你无法评判一个你看不到的过程。我们详细阐述了可观测性的“三大支柱”——日志(Logging)、追踪(Tracing)和指标(Metrics)——作为捕获智能体“思考过程”必不可少的技术基础。
  • 评估是一个持续的闭环(Evaluation is a Continuous Loop):我们将这些概念整合为“智能体质量飞轮(Agent Quality Flywheel)”,这是一套将数据转化为可执行洞察的运营手册。该系统融合了可扩展的 AI 驱动评估器与不可或缺的人机协同(Human-in-the-Loop, HITL)评判,以驱动持续不断的改进。

本白皮书旨在面向构建这一未来的架构师、工程师和产品负责人。它提供了一个框架,助你实现从构建“有能力的”智能体,向构建“可靠且值得信赖的”智能体的跃升。

阅读全文 »

上下文工程:会话与记忆

Context Engineering: Sessions, Memory

Stateful and personal AI begins with Context Engineering.

有状态且个性化的 AI 始于上下文工程。

引言

本白皮书探讨了“会话”(Sessions)与“记忆”(Memory)在构建有状态、智能 LLM 智能体(Agent)中的关键作用,旨在赋能开发者创造出更强大、更具个性化且具备持久性的 AI 体验。为了让大型语言模型(LLM)能够记忆、学习并实现个性化交互,开发者必须在其上下文窗口内动态组合并管理信息——这一过程被称为“上下文工程”(Context Engineering)。

本白皮书的核心概念总结如下:

  • 上下文工程: 在 LLM 的上下文窗口内动态组合与管理信息的过程,旨在构建有状态、智能的智能体。

  • 会话: 与智能体进行完整对话的容器,保存了对话的按时序排列的历史记录以及智能体的微调工作记忆(Working Memory)。

  • 记忆: 长期持久化的机制,跨越多个会话捕获并巩固关键信息,从而为 LLM 智能体提供连续且个性化的体验。

阅读全文 »

智能体工具及与 MCP 的互操作性

Agent Tools & Interoperability with MCP

作者:Mike Styer、Kanchana Patlolla、Madhuranjan Mohan 和 Sal Diaz

Unifying Agents, Tools, and the World

统一智能体、工具和世界

引言:模型、工具和智能体

Introduction: Models, Tools and Agents

如果无法访问外部功能,即使是最先进的基础模型也只是一个模式预测引擎。一个高级模型可以做好很多事情——通过法律 考试,编写代码或者写诗,创建图像和视频,解决数学问题——但它自身只能根据之前训练过的数据生成内容。除了请求上下文中输入的数据外,它无法访问任何关于世界的新数据;它无法与外部系统交互;也无法采取任何行动来影响其环境。

个人注:LLM驱动的智能体;后训练阶段的能力。

大多数现代基础模型现在都具备调用外部函数或工具的能力,以克服这一局限性。就像智能手机上的应用程序一样,工具使人工智能系统能够做的不仅仅是生成模式。这些工具充当智能体的“眼睛”和“手”,使其能够感知世界并与之互动。

随着智能体 AI(Agentic AI)的到来,工具对 AI 系统变得愈发重要。AI 智能体利用基础模型的推理能力与用户进行交互,并为他们实现特定的目标,而外部工具则赋予了智能体这一能力。通过拥有执行外部操作的能力,智能体可以对企业级应用产生巨大的影响。

然而,将外部工具连接到基础模型面临着重大挑战,这其中既包括基本的技术问题,也涉及重要的安全风险。模型上下文协议(Model Context Protocol,简称 MCP)于 2024 年推出,旨在简化工具与模型的集成流程,并解决其中的部分技术与安全挑战。

在本白皮书中,我们首先探讨基础模型所使用工具的本质:它们是什么以及如何使用它们。我们为如何设计高效的工具以及如何高效地使用它们提供了一些最佳实践和指南。随后,我们转向模型上下文协议(MCP),讨论其基本组件以及它所带来的一些挑战与风险。最后,我们深入剖析当 MCP 被引入企业环境并连接到高价值外部系统时,所带来的安全挑战。

阅读全文 »

智能体简介

Introduction to Agents

作者:艾伦·布朗特、安东尼奥·古利、舒巴姆·萨布、迈克尔·齐默尔曼和弗拉基米尔·武斯科维奇

Agents are the natural evolution of Language Models, made usefu in software.

智能体是语言模型的自然演化,在软件中得到了应用。

从预测性人工智能到自主智能体

From Predictive AI to Autonomous Agents

人工智能正在发生变革。多年来,人们的关注点一直集中在擅长被动、离散任务的模型上:例如回答问题、翻译文本或根据提示生成图像。这种模式虽然强大,但每一步都需要人类的持续指导。如今,我们正目睹一场范式转变(paradigm shift),人工智能正从仅仅预测或创建内容转向能够自主解决问题和执行任务的新型软件。

这一新兴领域的核心是AI智能体。智能体并非仅仅是静态工作流程中的人工智能模型;它是一个完整的应用程序,能够制定计划并采取行动以实现目标。它将语言模型(LM)的推理能力与实际行动的能力相结合,使其能够处理大模型自身无法单独应对的复杂的、多步骤的任务。其核心能力在于,智能体(Agent)可以独立工作,在无需人类步步引导的情况下,自行摸索出达成目标所需的后续步骤。

阅读全文 »

Configure Retry Options

When working with LLMs, you may encounter transient errors like rate limits or temporary service unavailability. Retry options automatically handle these failures by retrying the request with exponential backoff.

Transient errors:瞬时错误。指那些暂时性的、通常过一会儿就会自动消失的错误。

Exponential backoff:指数退避。一种标准的重试策略,指每次重试之间的等待时间会按指数级增加(例如 1秒、2秒、4秒...),以避免因频繁请求而导致服务器压力过大。

What is an AI Agent?

You've probably used an LLM like Gemini before, where you give it a prompt and it gives you a text response.

1
Prompt -> LLM -> Text

An AI Agent takes this one step further. An agent can think, take actions, and observe the results of those actions to give you a better answer.

1
Prompt -> Agent -> Thought -> Action -> Observation -> Final Answer
阅读全文 »

数学在自然科学中不合理的有效性

THE UNREASONABLE EFFECTIVENSS OF MATHEMATICS IN THE NATURAL SCIENCES

个人注:这篇文章太有洞察力了。1960年的文章。

尤金·维格纳 (Eugene Wigner)

正确看待数学,不仅能看到真理,还能看到至高无上的美——一种冷峻而严肃的美,正如雕塑一样,不诉诸我们天性中任何虚弱的部分,没有绘画或音乐那些华丽的装饰,却庄严纯洁,能够达到只有最伟大的艺术才能展现的严峻完美。 那种真正的喜悦、狂喜,那种超越凡人的感觉——这正是最高卓越的试金石——在数学中能像在诗歌中一样肯定地被找到。 —— 伯特兰·罗素,《数学的研究》

Mathematics, rightly viewed, possesses not only truth, but supreme beauty cold and austere, like that of sculpture, without appeal to any part of our weaker nature, without the gorgeous trappings of painting or music, yet sublimely pure, and capable of a stern perfection such as only the greatest art can show. The true spirit of delight, the exaltation, the sense of being more than Man, which is the touchstone of the highest excellence, is to be found in mathematics as surely as in poetry.

有一个关于两个朋友的故事,他们是高中同学,正在聊各自的工作 。其中一个成了统计学家,从事人口趋势研究 。他给老同学看了一篇论文复印件 。复印件照例以高斯分布开头,统计学家向老同学解释了代表实际人口、平均人口等符号的含义 。他的同学有些怀疑,不太确定统计学家是否在开玩笑 。“你怎么可能知道这些?”他问道 。“还有这个符号是什么?” “噢,”统计学家说,“这是 \(\pi\)。” “那是什么?” “圆周长与其直径的比值。” “好吧,现在你这玩笑开得太过分了,”老同学说,“人口肯定跟圆的周长没有任何关系。”

阅读全文 »

数据的“不合理”有效性

The Unreasonable Effectiveness of Data

Alon Halevy、Peter Norvig、Fernando Pereira,Google

尤金·维格纳(Eugene Wigner)的文章《数学在自然科学中的不合理有效性》(“The Unreasonable Effectiveness of Mathematics in the Natural Sciences”)探讨了为什么如此多的物理学内容能够被简洁的数学公式优雅地解释,例如 \(f = ma\)\(e = mc^2\)。与此同时,那些研究人类而非基本粒子的科学,却始终难以被优雅的数学所描述。经济学家由于无法像物理学那样精确建模人类行为,而长期怀有一种“物理学嫉妒症”。一本非正式且并不完整的英语语法书就长达1700多页。也许,当涉及自然语言处理及相关领域时,我们注定只能面对复杂理论,而永远无法拥有物理公式般的优雅。但如果真是如此,我们就应该停止假装我们的目标是构建极度优雅的理论,而应当拥抱复杂性,并利用我们最好的盟友:数据那种“不合理”的有效性。

我们中的一位作者,在布朗大学读本科时,仍然记得第一次接触 Brown Corpus(布朗语料库)时的兴奋心情。该语料库包含一百万个英文单词。自那以后,我们这个领域已经出现了若干规模大约扩大100倍的重要语料库。而在2006年,Google 发布了一个包含一万亿词的语料库,其中统计了所有最长五词序列的频率。从某些方面来说,这个语料库甚至比 Brown Corpus 更糟:它来自未经筛选的网页,因此包含不完整句子、拼写错误、语法错误以及各种其他错误;它也没有经过人工精细校正的词性标注。但它比 Brown Corpus 大一百万倍这一事实,足以弥补这些缺点。一个万亿词语料库——再加上其他来自 Web 的、包含数百万、数十亿乃至数万亿链接、视频、图像、表格和用户交互的数据集——甚至能够捕捉极其罕见的人类行为模式。因此,如果我们知道如何从数据中提取模型,那么这样的语料库就足以成为某些任务完整模型的基础。

阅读全文 »

作为矛盾文学奖的作品,《穆斯林的葬礼》可谓声名赫赫。大学期间,就已经拜读过。奇怪的是,如今倒一点内容都也记不起来。

清明期间,忽然想到这本书,于是重新捡起,重读一遍。也许是因为那股浓浓的悲剧色彩,阅读过程始终断断续续。直到五一假期,才咬着牙把全书读完。

读完之后,就如作者后记所述:

我已经舍不得和我的人物分开。当我把他们一个一个地送离人间的时候,我被生离死别折磨得痛彻肺腑。心绞痛发作得越来越频繁,我不得不一次次停下来吞药。我甚至担心自己的葬礼先于书中的葬礼而举行,那么,我就太遗憾了,什么人都对不起了!

或许真的是年纪渐长,如今读到这些悲剧情节,竟也像作者一样,感到心如刀割,久久不能平复。

也许同样是年纪的缘故,见过太多的生离死别,便渐渐的关注起“死亡”这个问题。

关于死亡,早在两千多年前,有人问孔老夫子死是怎么回事,孔子回答说,“未知生,焉知死。”;而法国哲学家蒙田说过:“学习哲学即是学习如何去死。”所以,学习哲学让人能更平静的面对死亡。不过,对此我始终抱有几分怀疑。

正如作者所说:

死,也许是心灵创痛的解脱、人生苦难的完结?可是,人为什么又偏偏在这个时刻充满了对死的恐惧、对生的依恋呢?人多么渺小、多么可怜、多么自欺欺人啊!

所以,就像马克思说的,“宗教是人民的精神鸦片。”在面对死亡时,无论生者或者逝者,都需要从宗教中寻求某种精神上的慰藉。

阅读全文 »
0%