2026 年Agent 管控框架(Agent Harness)的重要性
我们正处于 AI 的转折点。多年来,我们只关注模型本身,模型有多聪明、多优秀?我们查看排行榜和基准测试,看模型 A 是否击败了模型 B。 顶级模型在静态排行榜上的差距正在缩小。但这可能只是一种假象。模型之间的真正差距,会随着任务时间的延长和复杂度的提升而逐渐显现。这归结为持久性:一个模型在长时间执行数百次工具调用的过程中,能多好地遵循指令。排行榜上 1% 的差异,根本无法检测出一个模型在五十步之后...
我们正处于 AI 的转折点。多年来,我们只关注模型本身,模型有多聪明、多优秀?我们查看排行榜和基准测试,看模型 A 是否击败了模型 B。
顶级模型在静态排行榜上的差距正在缩小。但这可能只是一种假象。模型之间的真正差距,会随着任务时间的延长和复杂度的提升而逐渐显现。这归结为持久性:一个模型在长时间执行数百次工具调用的过程中,能多好地遵循指令。排行榜上 1% 的差异,根本无法检测出一个模型在五十步之后是否会偏离轨道。
我们需要一种新的方式来展示模型的能力、性能和进步。我们需要能够证明模型可以可靠执行跨越数天的工作流的系统。而Agent管控框架(Agent Harness) 正是这个问题的答案之一。
什么Agent管控框架
Agent管控框架(Agent Harness)是包裹在 AI 模型外层的基础设施,用于管理长时间运行的任务。它不是智能体本身,而是治理智能体运行方式的软件系统,确保智能体始终保持可靠、高效且可控。它的运作层级高于智能体框架。框架提供的是构建工具的基础组件,或实现智能体循环的底层逻辑;而 管控框架则提供预设提示词、对工具调用的规范化处理、生命周期钩子,以及开箱即用的能力,如规划、文件系统访问或子智能体管理。它不仅仅是一个框架,而是一个自带全套电池的完整方案。
我们可以将它类比成一个计算机:
模型是CPU:它提供最原始的计算力量。
上下文窗口是内存:它是有限且易失的工作记忆。
Agent管控框架(Agent Harness)是操作系统: 它负责管理上下文、处理"启动"流程(提示词、钩子),并提供标准驱动(工具调用处理)。
Agent是应用:它是运行在操作系统之上的特定用户逻辑。
Agent管控框架实现了"上下文工程"策略,例如通过压缩来精简上下文、将状态卸载到存储中、或将任务隔离到子Agent中。对于开发者而言,这意味着你可以跳过构建操作系统的工作,专注于应用本身定义你的智能体独有的逻辑。
目前,通用型Agent管控框架仍然稀缺。Claude Code 是这一新兴类别的典型代表,正在尝试通过 Claude Agent SDK 或 LangChain DeepAgents 进行标准化。不过也可以说,所有编程 CLI工具在某种意义上都是面向特定垂直领域的专用智能体框架。
基准测试的困境与Agent管控框架的必要性
过去,基准测试大多针对模型的单轮输出进行。去年,我们开始看到一种趋势从评估原始模型转向评估系统,其中模型只是其中一个组件,它可以使用工具或与环境交互,例如 AIMO、SWE-Bench。
这些较新的基准测试难以衡量可靠性。它们很少测试模型在第 50 次或第 100 次工具调用/轮次之后的表现。而真正的难点恰恰在于此。一个模型可能足够聪明,能在一两次尝试内解出一道难题,但在运行一小时后却无法遵循最初的指令,或无法正确推理中间步骤。标准基准测试难以捕捉长工作流所需的持久性。
随着基准测试将变得越来越复杂,我们需要弥合基准测试声称的能力与用户实际体验之间的鸿沟。智能体框架在以下三个关键方面不可或缺:
验证真实场景中的进展:基准测试与用户需求之间存在错位。随着新模型频繁发布,Agent管控框架使用户能够轻松测试和比较最新模型在其实际用例和约束条件下的表现。
赋能用户体验:没有Agent管控框架,用户可能无法充分发挥模型的潜力,得到好的用户体验。发布智能体框架使开发者能够利用经过验证的工具和最佳实践来构建智能体,从而确保用户与相同的系统架构进行交互。
通过真实反馈持续优化:一个共享且稳定的环境(Agent管控框架)能够形成反馈闭环,研究人员可以基于实际用户的使用情况,对基准测试进行迭代和改进("爬坡优化")。
改进一个系统的能力,与你验证其输出的难易程度成正比(参考文章验证的不对称性与验证者法则)。Agent管控框架将模糊的多步骤智能体工作流转化为可记录、可评分的结构化数据,从而让我们能够有效地进行爬坡优化。
构建Agent的"苦涩教训"
Rich Sutton 写过一篇名为《苦涩教训》的文章。他认为,利用算力的通用方法每次都会胜过手工编码的人类知识。我们正在Agent开发中亲眼见证这一教训的上演。
Manus 在六个月内重构了五次他们的Agent管控框架,以移除僵化的预设假设。
LangChain在一年内他们的“Open Deep Research”进行了3次重构。
Vercel 移除了 80% 的智能体工具,从而实现了更少的步骤、更少的 token 消耗和更快的响应速度。
在这些苦涩的教训中我们学到了,我们的基础设施(Agent管控框架)必须保持轻量。每次新模型发布,都会带来不同的、最优的智能体构建方式。2024 年需要复杂手工编码流水线才能实现的能力,到 2026年仅靠单个上下文窗口提示词就能完成。
开发者必须构建允许他们随时剥离昨天编写的"智能"逻辑的框架。如果你过度设计控制流,下一次模型更新就会让你的系统崩溃。
何去何从
我们正朝着训练环境与推理环境融合的方向发展。我们看到一个新的瓶颈正在浮现出来,那就是上下文持久性。Agent管控框架将成为解决"模型漂移"问题的核心工具。实验室将利用Agent管控框架精确检测模型在第100步之后何时开始偏离指令或推理失准。这些数据将直接反馈到训练中,以训练出在长任务中不会"疲倦"的模型。
作为构建者和开发者,关注点应当转移:
从简单开始:不要构建庞大的控制流。提供健壮的原子化工具,让模型来制定计划。实现护栏机制、重试策略和验证流程。
为删除而构建:让你的架构保持模块化。新模型将取代你的逻辑,你必须随时准备好剥离代码。
框架即数据集:竞争优势不再是提示词本身,而是你的Agent管控框架所捕获的轨迹数据。Agent在工作流中每一次未能遵循指令的失败,后期都可以用于训练下一代迭代。
译者评注
随着时间推移,我们逐渐达到了算力的极限和模型训练的人工优化的极限下,绝大部分的模型是没有太大的差别的。并且模型只是我们整个软件体系的一部分。软件领域从一开始就是关注准确性,可控性和稳定性的一个工程领域,因此在模型基线基本拉平的情况下,根据这篇文章,我们更应该关注,如何更好的发挥模型的潜力,做到“言出法随”的可复现性,同时我们的系统应该更加模块化,以便我们随时可以重新适配新的模型,让新的Agent替代我们部分的模块。
MVP模式和敏捷将会越来越重要,我们需要快速的验证我们的想法,然后再逐步完善,因为大语言模型的迭代会和容易摧毁我们的复杂设计。