2026 年 Agent Harness 的重要性

我们正处于 AI 的转折点。多年来，我们只关注模型本身。我们询问模型有多智能/有多好。我们查看排行榜和基准测试，看模型 A 是否胜过模型 B。

静态排行榜上顶级模型之间的差距正在缩小。但这可能是一种错觉。任务越长、越复杂，模型之间的差距就越明显。关键在于持久性：模型在执行数百次工具调用的过程中，能多好地遵循指令。排行榜上 1% 的差距无法检测到模型在五十步之后是否偏离轨道的可靠性。

我们需要一种新的方式来展示能力、性能和改进。我们需要能够证明模型可以可靠地执行多日工作流的系统。Agent Harness 就是答案之一。

什么是 Agent Harness？

Agent Harness 是围绕 AI 模型构建的基础设施，用于管理长期运行的任务。它不是代理本身，而是管理软件系统，用于管理代理的运行方式，确保其保持可靠、高效和可引导。

它的运行层级高于代理框架。框架提供工具的构建模块或实现代理循环，而 Harness 提供提示预设、对工具调用的意见处理、生命周期钩子或开箱即用的功能，如规划、文件系统访问或子代理管理。它不仅仅是一个框架，它是开箱即用的完整解决方案。

Agent Harness Diagram

我们可以通过与计算机的比较来形象化理解：

模型是 CPU： 它提供原始处理能力。
上下文窗口是 RAM： 它是有限的、易失性的工作内存。
Agent Harness 是操作系统： 它管理上下文，处理”启动”序列（提示、钩子），并提供标准驱动程序（工具处理）。
代理是应用程序： 它是在操作系统之上运行的特定用户逻辑。

Agent Harness 实现了”上下文工程”策略，如通过压缩减少上下文、将状态卸载到存储、或将任务隔离到子代理中。对于开发者来说，这意味着你可以跳过构建操作系统，专注于应用程序，定义代理的独特逻辑。

目前，通用 Harness 还很少见。Claude Code 是这一新兴类别的典型例子，试图通过 Claude Agent SDK 或 LangChain DeepAgents 实现标准化。然而，有人可能会认为，所有编码 CLI 在某种程度上都是为特定垂直领域设计的专用 Agent Harness。

基准测试问题与对 Agent Harness 的需求

过去，基准测试主要针对单轮模型输出。去年，我们开始看到一种趋势，即评估系统而非原始模型，其中模型是一个可以使用工具或与环境交互的组件，例如 AIMO、SWE-Bench。

这些新的基准测试难以衡量可靠性。它们很少测试模型在第 50 次或第 100 次工具调用/回合后的行为。这才是真正的困难所在。模型可能足够聪明，在一两次尝试中解决难题，但在运行一小时后无法遵循初始指令或正确推理中间步骤。标准基准测试难以捕捉长期工作流所需的持久性。

随着基准测试变得越来越复杂，我们需要弥合基准测试声明与用户体验之间的差距。Agent Harness 在三个关键原因上至关重要：

验证实证进展： 基准测试与用户需求不一致。随着新模型频繁发布，Harness 允许用户轻松测试和比较最新模型在其用例和约束下的表现。
增强用户体验： 没有 Harness，用户体验可能落后于模型的潜力。发布 Harness 允许开发者使用经过验证的工具和最佳实践构建代理。这确保用户与相同的系统结构交互。
通过实证反馈进行爬山优化： 共享、稳定的环境（Harness）创建了一个反馈循环，研究人员可以根据实际用户采用情况迭代和改进（“爬山”）基准测试。

改进系统的能力与验证其输出的难易程度成正比。[Ref] Harness 将模糊的多步骤代理工作流转化为我们可记录和评分的结构化数据，使我们能够有效地进行爬山优化。

构建代理的”痛苦教训”

Rich Sutton 写了一篇名为痛苦教训的文章。他认为，使用计算的通用方法每次都胜过手工编码的人类知识。我们现在正看到这一教训在代理开发中上演。

为了在痛苦教训中生存，我们的基础设施（Harness）必须轻量级。每个新模型的发布都有不同的、最优的代理结构方式。2024 年需要复杂手工编码流水线的功能，现在在 2026 年只需单个上下文窗口提示即可处理。

开发者必须构建能够让他们删除昨天编写的”智能”逻辑的 Harness。如果你过度设计控制流，下一个模型更新将破坏你的系统。

接下来是什么？

我们正朝着训练和推理环境的融合方向发展。我们看到新的瓶颈是上下文持久性。Harness 将成为解决”模型漂移”的主要工具。实验室将使用 Harness 来精确检测模型在第 100 步之后何时停止遵循指令或正确推理。这些数据将直接反馈到训练中，以创建在长期任务中不会”疲劳”的模型。

作为构建者和开发者，重点应该转移：

从简单开始： 不要构建庞大的控制流。提供强大的原子工具。让模型制定计划。实现防护栏、重试和验证。
为删除而构建： 使你的架构模块化。新模型将取代你的逻辑。你必须准备好删除代码。
Harness 就是数据集： 竞争优势不再是提示。它是你的 Harness 捕获的轨迹。每次你的代理在工作流后期未能遵循指令，都可以用于训练下一次迭代。

感谢阅读！如果你有任何问题或反馈，请在 Twitter 或 LinkedIn 上告诉我。

原文链接: https://www.philschmid.de/agent-harness-2026