Skip to content

2026 年 Agent Harness 的重要性

我们正处于 AI 的转折点。多年来,我们只关注模型本身。我们询问模型有多智能/有多好。我们查看排行榜和基准测试,看模型 A 是否胜过模型 B。

静态排行榜上顶级模型之间的差距正在缩小。但这可能是一种错觉。任务越长、越复杂,模型之间的差距就越明显。关键在于持久性:模型在执行数百次工具调用的过程中,能多好地遵循指令。排行榜上 1% 的差距无法检测到模型在五十步之后是否偏离轨道的可靠性。

我们需要一种新的方式来展示能力、性能和改进。我们需要能够证明模型可以可靠地执行多日工作流的系统。Agent Harness 就是答案之一。

Agent Harness 是围绕 AI 模型构建的基础设施,用于管理长期运行的任务。它不是代理本身,而是管理软件系统,用于管理代理的运行方式,确保其保持可靠、高效和可引导。

它的运行层级高于代理框架。框架提供工具的构建模块或实现代理循环,而 Harness 提供提示预设、对工具调用的意见处理、生命周期钩子或开箱即用的功能,如规划、文件系统访问或子代理管理。它不仅仅是一个框架,它是开箱即用的完整解决方案。

Agent Harness Diagram

我们可以通过与计算机的比较来形象化理解:

  • 模型是 CPU: 它提供原始处理能力。
  • 上下文窗口是 RAM: 它是有限的、易失性的工作内存。
  • Agent Harness 是操作系统: 它管理上下文,处理”启动”序列(提示、钩子),并提供标准驱动程序(工具处理)。
  • 代理是应用程序: 它是在操作系统之上运行的特定用户逻辑。

Agent Harness 实现了”上下文工程”策略,如通过压缩减少上下文、将状态卸载到存储、或将任务隔离到子代理中。对于开发者来说,这意味着你可以跳过构建操作系统,专注于应用程序,定义代理的独特逻辑。

目前,通用 Harness 还很少见。Claude Code 是这一新兴类别的典型例子,试图通过 Claude Agent SDK 或 LangChain DeepAgents 实现标准化。然而,有人可能会认为,所有编码 CLI 在某种程度上都是为特定垂直领域设计的专用 Agent Harness。

基准测试问题与对 Agent Harness 的需求

Section titled “基准测试问题与对 Agent Harness 的需求”

过去,基准测试主要针对单轮模型输出。去年,我们开始看到一种趋势,即评估系统而非原始模型,其中模型是一个可以使用工具或与环境交互的组件,例如 AIMO、SWE-Bench。

这些新的基准测试难以衡量 可靠性。它们很少测试模型在第 50 次或第 100 次工具调用/回合后的行为。这才是真正的困难所在。模型可能足够聪明,在一两次尝试中解决难题,但在运行一小时后无法遵循初始指令或正确推理中间步骤。标准基准测试难以捕捉长期工作流所需的持久性。

随着基准测试变得越来越复杂,我们需要弥合基准测试声明与用户体验之间的差距。Agent Harness 在三个关键原因上至关重要:

  • 验证实证进展: 基准测试与用户需求不一致。随着新模型频繁发布,Harness 允许用户轻松测试和比较最新模型在其用例和约束下的表现。
  • 增强用户体验: 没有 Harness,用户体验可能落后于模型的潜力。发布 Harness 允许开发者使用经过验证的工具和最佳实践构建代理。这确保用户与相同的系统结构交互。
  • 通过实证反馈进行爬山优化: 共享、稳定的环境(Harness)创建了一个反馈循环,研究人员可以根据实际用户采用情况迭代和改进(“爬山”)基准测试。

改进系统的能力与验证其输出的难易程度成正比。[Ref] Harness 将模糊的多步骤代理工作流转化为我们可记录和评分的结构化数据,使我们能够有效地进行爬山优化。

Rich Sutton 写了一篇名为 痛苦教训 的文章。他认为,使用计算的通用方法每次都胜过手工编码的人类知识。我们现在正看到这一教训在代理开发中上演。

为了在痛苦教训中生存,我们的基础设施(Harness)必须轻量级。每个新模型的发布都有不同的、最优的代理结构方式。2024 年需要复杂手工编码流水线的功能,现在在 2026 年只需单个上下文窗口提示即可处理。

开发者必须构建能够让他们删除昨天编写的”智能”逻辑的 Harness。如果你过度设计控制流,下一个模型更新将破坏你的系统。

我们正朝着训练和推理环境的融合方向发展。我们看到新的瓶颈是上下文持久性。Harness 将成为解决”模型漂移”的主要工具。实验室将使用 Harness 来精确检测模型在第 100 步之后何时停止遵循指令或正确推理。这些数据将直接反馈到训练中,以创建在长期任务中不会”疲劳”的模型。

作为构建者和开发者,重点应该转移:

  1. 从简单开始: 不要构建庞大的控制流。提供强大的原子工具。让模型制定计划。实现防护栏、重试和验证。
  2. 为删除而构建: 使你的架构模块化。新模型将取代你的逻辑。你必须准备好删除代码。
  3. Harness 就是数据集: 竞争优势不再是提示。它是你的 Harness 捕获的轨迹。每次你的代理在工作流后期未能遵循指令,都可以用于训练下一次迭代。

感谢阅读!如果你有任何问题或反馈,请在 TwitterLinkedIn 上告诉我。


原文链接: https://www.philschmid.de/agent-harness-2026