智能体质量

Agent Quality

The future of AI is agentic. Its success is determined by quality.

人工智能的未来在于智能体化。而它的成功,将由质量决定

引言

Introduction

我们正处于智能体时代的黎明。从可预测的、基于指令的工具,向自主的、以目标为导向的 AI 智能体(AI Agents)的转变,呈现出数十年来软件工程中最深刻的变革之一。尽管这些智能体释放了令人惊叹的能力,但其固有的非确定性(Non-determinism)使其变得不可预测,并粉碎了我们传统的质量保障模型。

本白皮书基于一个简单但颠覆性的原则,为这一新现实提供了一份实用指南:

智能体质量(Agent quality)是一项架构支柱,而非最后的测试阶段。

本指南建立在三个核心信息之上:

  • 轨迹即真相(The Trajectory is the Truth:我们必须超越仅评估最终输出的阶段。衡量智能体质量与安全性的真实标准,隐藏在其整个决策过程之中。
  • 可观测性是基石(Observability is the Foundation):你无法评判一个你看不到的过程。我们详细阐述了可观测性的“三大支柱”——日志(Logging)、追踪(Tracing)和指标(Metrics)——作为捕获智能体“思考过程”必不可少的技术基础。
  • 评估是一个持续的闭环(Evaluation is a Continuous Loop):我们将这些概念整合为“智能体质量飞轮(Agent Quality Flywheel)”,这是一套将数据转化为可执行洞察的运营手册。该系统融合了可扩展的 AI 驱动评估器与不可或缺的人机协同(Human-in-the-Loop, HITL)评判,以驱动持续不断的改进。

本白皮书旨在面向构建这一未来的架构师、工程师和产品负责人。它提供了一个框架,助你实现从构建“有能力的”智能体,向构建“可靠且值得信赖的”智能体的跃升。

阅读全文 »

上下文工程:会话与记忆

Context Engineering: Sessions, Memory

Stateful and personal AI begins with Context Engineering.

有状态且个性化的 AI 始于上下文工程。

引言

本白皮书探讨了“会话”(Sessions)与“记忆”(Memory)在构建有状态、智能 LLM 智能体(Agent)中的关键作用,旨在赋能开发者创造出更强大、更具个性化且具备持久性的 AI 体验。为了让大型语言模型(LLM)能够记忆、学习并实现个性化交互,开发者必须在其上下文窗口内动态组合并管理信息——这一过程被称为“上下文工程”(Context Engineering)。

本白皮书的核心概念总结如下:

  • 上下文工程: 在 LLM 的上下文窗口内动态组合与管理信息的过程,旨在构建有状态、智能的智能体。

  • 会话: 与智能体进行完整对话的容器,保存了对话的按时序排列的历史记录以及智能体的微调工作记忆(Working Memory)。

  • 记忆: 长期持久化的机制,跨越多个会话捕获并巩固关键信息,从而为 LLM 智能体提供连续且个性化的体验。

阅读全文 »

智能体工具及与 MCP 的互操作性

Agent Tools & Interoperability with MCP

作者:Mike Styer、Kanchana Patlolla、Madhuranjan Mohan 和 Sal Diaz

Unifying Agents, Tools, and the World

统一智能体、工具和世界

引言:模型、工具和智能体

Introduction: Models, Tools and Agents

如果无法访问外部功能,即使是最先进的基础模型也只是一个模式预测引擎。一个高级模型可以做好很多事情——通过法律 考试,编写代码或者写诗,创建图像和视频,解决数学问题——但它自身只能根据之前训练过的数据生成内容。除了请求上下文中输入的数据外,它无法访问任何关于世界的新数据;它无法与外部系统交互;也无法采取任何行动来影响其环境。

个人注:LLM驱动的智能体;后训练阶段的能力。

大多数现代基础模型现在都具备调用外部函数或工具的能力,以克服这一局限性。就像智能手机上的应用程序一样,工具使人工智能系统能够做的不仅仅是生成模式。这些工具充当智能体的“眼睛”和“手”,使其能够感知世界并与之互动。

随着智能体 AI(Agentic AI)的到来,工具对 AI 系统变得愈发重要。AI 智能体利用基础模型的推理能力与用户进行交互,并为他们实现特定的目标,而外部工具则赋予了智能体这一能力。通过拥有执行外部操作的能力,智能体可以对企业级应用产生巨大的影响。

然而,将外部工具连接到基础模型面临着重大挑战,这其中既包括基本的技术问题,也涉及重要的安全风险。模型上下文协议(Model Context Protocol,简称 MCP)于 2024 年推出,旨在简化工具与模型的集成流程,并解决其中的部分技术与安全挑战。

在本白皮书中,我们首先探讨基础模型所使用工具的本质:它们是什么以及如何使用它们。我们为如何设计高效的工具以及如何高效地使用它们提供了一些最佳实践和指南。随后,我们转向模型上下文协议(MCP),讨论其基本组件以及它所带来的一些挑战与风险。最后,我们深入剖析当 MCP 被引入企业环境并连接到高价值外部系统时,所带来的安全挑战。

阅读全文 »

智能体简介

Introduction to Agents

作者:艾伦·布朗特、安东尼奥·古利、舒巴姆·萨布、迈克尔·齐默尔曼和弗拉基米尔·武斯科维奇

Agents are the natural evolution of Language Models, made usefu in software.

智能体是语言模型的自然演化,在软件中得到了应用。

从预测性人工智能到自主智能体

From Predictive AI to Autonomous Agents

人工智能正在发生变革。多年来,人们的关注点一直集中在擅长被动、离散任务的模型上:例如回答问题、翻译文本或根据提示生成图像。这种模式虽然强大,但每一步都需要人类的持续指导。如今,我们正目睹一场范式转变(paradigm shift),人工智能正从仅仅预测或创建内容转向能够自主解决问题和执行任务的新型软件。

这一新兴领域的核心是AI智能体。智能体并非仅仅是静态工作流程中的人工智能模型;它是一个完整的应用程序,能够制定计划并采取行动以实现目标。它将语言模型(LM)的推理能力与实际行动的能力相结合,使其能够处理大模型自身无法单独应对的复杂的、多步骤的任务。其核心能力在于,智能体(Agent)可以独立工作,在无需人类步步引导的情况下,自行摸索出达成目标所需的后续步骤。

阅读全文 »

Configure Retry Options

When working with LLMs, you may encounter transient errors like rate limits or temporary service unavailability. Retry options automatically handle these failures by retrying the request with exponential backoff.

Transient errors:瞬时错误。指那些暂时性的、通常过一会儿就会自动消失的错误。

Exponential backoff:指数退避。一种标准的重试策略,指每次重试之间的等待时间会按指数级增加(例如 1秒、2秒、4秒...),以避免因频繁请求而导致服务器压力过大。

What is an AI Agent?

You've probably used an LLM like Gemini before, where you give it a prompt and it gives you a text response.

1
Prompt -> LLM -> Text

An AI Agent takes this one step further. An agent can think, take actions, and observe the results of those actions to give you a better answer.

1
Prompt -> Agent -> Thought -> Action -> Observation -> Final Answer
阅读全文 »

数学在自然科学中不合理的有效性

THE UNREASONABLE EFFECTIVENSS OF MATHEMATICS IN THE NATURAL SCIENCES

个人注:这篇文章太有洞察力了。1960年的文章。

尤金·维格纳 (Eugene Wigner)

正确看待数学,不仅能看到真理,还能看到至高无上的美——一种冷峻而严肃的美,正如雕塑一样,不诉诸我们天性中任何虚弱的部分,没有绘画或音乐那些华丽的装饰,却庄严纯洁,能够达到只有最伟大的艺术才能展现的严峻完美。 那种真正的喜悦、狂喜,那种超越凡人的感觉——这正是最高卓越的试金石——在数学中能像在诗歌中一样肯定地被找到。 —— 伯特兰·罗素,《数学的研究》

Mathematics, rightly viewed, possesses not only truth, but supreme beauty cold and austere, like that of sculpture, without appeal to any part of our weaker nature, without the gorgeous trappings of painting or music, yet sublimely pure, and capable of a stern perfection such as only the greatest art can show. The true spirit of delight, the exaltation, the sense of being more than Man, which is the touchstone of the highest excellence, is to be found in mathematics as surely as in poetry.

有一个关于两个朋友的故事,他们是高中同学,正在聊各自的工作 。其中一个成了统计学家,从事人口趋势研究 。他给老同学看了一篇论文复印件 。复印件照例以高斯分布开头,统计学家向老同学解释了代表实际人口、平均人口等符号的含义 。他的同学有些怀疑,不太确定统计学家是否在开玩笑 。“你怎么可能知道这些?”他问道 。“还有这个符号是什么?” “噢,”统计学家说,“这是 \(\pi\)。” “那是什么?” “圆周长与其直径的比值。” “好吧,现在你这玩笑开得太过分了,”老同学说,“人口肯定跟圆的周长没有任何关系。”

阅读全文 »

数据的“不合理”有效性

The Unreasonable Effectiveness of Data

Alon Halevy、Peter Norvig、Fernando Pereira,Google

尤金·维格纳(Eugene Wigner)的文章《数学在自然科学中的不合理有效性》(“The Unreasonable Effectiveness of Mathematics in the Natural Sciences”)探讨了为什么如此多的物理学内容能够被简洁的数学公式优雅地解释,例如 \(f = ma\)\(e = mc^2\)。与此同时,那些研究人类而非基本粒子的科学,却始终难以被优雅的数学所描述。经济学家由于无法像物理学那样精确建模人类行为,而长期怀有一种“物理学嫉妒症”。一本非正式且并不完整的英语语法书就长达1700多页。也许,当涉及自然语言处理及相关领域时,我们注定只能面对复杂理论,而永远无法拥有物理公式般的优雅。但如果真是如此,我们就应该停止假装我们的目标是构建极度优雅的理论,而应当拥抱复杂性,并利用我们最好的盟友:数据那种“不合理”的有效性。

我们中的一位作者,在布朗大学读本科时,仍然记得第一次接触 Brown Corpus(布朗语料库)时的兴奋心情。该语料库包含一百万个英文单词。自那以后,我们这个领域已经出现了若干规模大约扩大100倍的重要语料库。而在2006年,Google 发布了一个包含一万亿词的语料库,其中统计了所有最长五词序列的频率。从某些方面来说,这个语料库甚至比 Brown Corpus 更糟:它来自未经筛选的网页,因此包含不完整句子、拼写错误、语法错误以及各种其他错误;它也没有经过人工精细校正的词性标注。但它比 Brown Corpus 大一百万倍这一事实,足以弥补这些缺点。一个万亿词语料库——再加上其他来自 Web 的、包含数百万、数十亿乃至数万亿链接、视频、图像、表格和用户交互的数据集——甚至能够捕捉极其罕见的人类行为模式。因此,如果我们知道如何从数据中提取模型,那么这样的语料库就足以成为某些任务完整模型的基础。

阅读全文 »

作为矛盾文学奖的作品,《穆斯林的葬礼》可谓声名赫赫。大学期间,就已经拜读过。奇怪的是,如今倒一点内容都也记不起来。

清明期间,忽然想到这本书,于是重新捡起,重读一遍。也许是因为那股浓浓的悲剧色彩,阅读过程始终断断续续。直到五一假期,才咬着牙把全书读完。

读完之后,就如作者后记所述:

我已经舍不得和我的人物分开。当我把他们一个一个地送离人间的时候,我被生离死别折磨得痛彻肺腑。心绞痛发作得越来越频繁,我不得不一次次停下来吞药。我甚至担心自己的葬礼先于书中的葬礼而举行,那么,我就太遗憾了,什么人都对不起了!

或许真的是年纪渐长,如今读到这些悲剧情节,竟也像作者一样,感到心如刀割,久久不能平复。

也许同样是年纪的缘故,见过太多的生离死别,便渐渐的关注起“死亡”这个问题。

关于死亡,早在两千多年前,有人问孔老夫子死是怎么回事,孔子回答说,“未知生,焉知死。”;而法国哲学家蒙田说过:“学习哲学即是学习如何去死。”所以,学习哲学让人能更平静的面对死亡。不过,对此我始终抱有几分怀疑。

正如作者所说:

死,也许是心灵创痛的解脱、人生苦难的完结?可是,人为什么又偏偏在这个时刻充满了对死的恐惧、对生的依恋呢?人多么渺小、多么可怜、多么自欺欺人啊!

所以,就像马克思说的,“宗教是人民的精神鸦片。”在面对死亡时,无论生者或者逝者,都需要从宗教中寻求某种精神上的慰藉。

阅读全文 »

近期断断续续的看完了后宫权谋剧《甄嬛传》,不免想起多年前看过的《琅琊榜》。两者在豆瓣上的评价相差无几。

从整体架构上看,《甄嬛传》更胜一筹。其情节起起伏伏,甄嬛几次的大起大落以及伴随的心态变化(或者说成长),对情节起到了很好的推动作用,人物也显得更立体;而《琅琊榜》是梅长苏经过13年的蛰伏,一开篇就是上帝视角,智而近乎妖。所有的情节都是梅长苏逐步打怪,从小妖到BOSS,一步步达成目的。虽然情节设计有悬念和风险,但总是觉得一切都是都逃不出如来佛手心的感觉。

从单个故事情节设计看,《琅琊榜》显得更为合理,没有明显的逻辑漏洞;而《甄嬛传》很多是为了推动情节而强行设计。例如几个小太监可以随便在后宫弄鬼,就把人吓疯;后宫嫔妃稍微有点失宠,太监宫女就能马上180度的转弯;甚至那个血滴子夏刈,竟然几个普普通通的小太监就拿下了!还有很多情节明显疑点很多,而皇帝竟然不问青红皂白就加以惩罚,例如甄嬛穿错纯元皇后的衣服,明显是太监的错。

从演员方面看,觉得《琅琊榜》每个角色的表演都很到位,都很符合人物的设定。胡歌不用说,皇帝和高公公就特别经典。每个角色的定位都很明确,像高公公虽然帮靖王,但都是在其不明显违背其职责前提下的帮助,例如喊起驾,例如悄悄带话,例如顺着皇帝的话不经意提一下;而《甄嬛传》里面的太监苏培盛,干政和站位太明显,并且做了很多超越一个皇帝贴身太监该做的事情。

还有,《甄嬛传》里面,很多机密的谈话,都设计成在大庭广众之下,要么奴婢、太监都在边上(或者门外),要么是皇帝高高在上的大声说,一些机密的东西可以整个后宫都知道。而《雍正王朝》在这方面就处理得很好,大事都是在上书房或者起居室面对面密谈。

在对白上,总觉得《甄嬛传》太过刻意白话化。其实,作为古装剧,有些话语使用文言文更好,听起来也更舒服。《雍正王朝》这方面做到就很好,《琅琊榜》也不错。

总体而言,个人还是更为喜欢《琅琊榜》。

0%