LLM 智能体外化：记忆、技能、协议与工程框架的统一综述

摘要

大语言模型（LLM）智能体的构建正越来越少地依赖于修改模型权重，而越来越多地依赖于围绕模型重新组织运行时环境。早期系统期望模型在内部恢复的能力，现在已被外化到记忆存储、可复用技能、交互协议以及使这些模块在实践中可靠运行的外围工程框架中。本文通过”外化”这一视角来审视这一转变。借鉴认知人工制品的概念，我们认为智能体基础设施的重要性不仅仅在于它添加了辅助组件，更在于它将艰巨的认知负担转化为模型能够更可靠解决的形式。在这一观点下，记忆将状态跨时间外化，技能将程序性专业知识外化，协议将交互结构外化，而工程框架则作为统一层将它们协调为受控执行。我们追溯了从权重到上下文再到工程框架的历史演进，将记忆、技能和协议分析为三种不同但相互耦合的外化形式，并考察它们如何在更大的智能体系统内部相互作用。我们进一步讨论了参数化能力与外化能力之间的权衡，识别了自进化工程框架和共享智能体基础设施等新兴方向，并探讨了评估、治理以及模型与外部基础设施长期协同进化方面的开放性挑战。本文提供了一个系统级框架，用于解释为什么实际的智能体进步越来越不仅依赖于更强大的模型，更依赖于更好的外部认知基础设施。

1 引言

Refer to caption 图 1：外化作为 LLM 智能体设计的组织原则。上图： 人类认知外化的弧线——从思维到语言、文字、印刷，再到数字计算。中图： LLM 智能体对应的外化弧线——从权重到三个外化维度（记忆=外化状态、技能=外化专业知识、协议=外化交互），再到统一它们的工程框架。下图： 文献全景图，将代表性工作映射到三个能力层（权重、上下文、工程框架），展示了研究线索如何逐步向外迁移。两条弧线之间的平行关系编码了一个递归论断：LLM 智能体通过沿着推动人类认知历史的相同表征维度外化认知负担，来实现可靠的智能行为。

人类文明史也可以被解读为认知外化的历史。口语将私人思维转化为可共享的符号形式。文字将知识从脆弱的生物记忆转移到持久的物质记录中。印刷术在社会规模上实现了知识的机械化复制。数字计算将算术和符号操作从神经劳动转移到可编程机器上。在这些转变中，关键的变化并不是人类在没有人工制品的情况下变得能力下降。相反，人工制品通过将选定的负担向外转移，重新组织了认知系统，从而解放了有限的内部资源用于规划、抽象和创造（Norman, 1993）。同样的向外委托模式现在正在机器智能的前沿重现，体现在大语言模型智能体的设计中。

这一视角在认知人工制品的概念中有一个自然的理论锚点（Norman, 1991, 1993）。其核心洞见是：外部辅助工具不仅仅是放大了不变的内在能力，它们往往改变了任务本身。购物清单并不会扩大生物记忆容量，它将一个困难的回忆问题转化为一个识别问题。地图并不会简单地让导航变得”更强”，它将隐藏的空间关系转化为可见的结构。因此，人工制品的力量在于表征转换：它重构了问题，使智能体能够利用已有能力更可靠地解决问题（Norman, 1991）。

我们认为，同样的逻辑现在也支配着基于 LLM 的智能体中最重要的设计选择。我们的核心论点是：外化——即将认知负担从模型的内部计算逐步转移到持久的、可检查的、可复用的外部结构中——是统一语言智能体在记忆、技能、协议和工程框架方面最新进展的过渡逻辑——即解释每次架构转变为何发生以及它试图保留何种形式可靠性的机制。这不仅仅是关于工程便利性的主张，更是关于可靠智能从何而来的主张：不仅仅来自越来越大的模型，更来自对任务需求的系统性重构，使内部能力和外部基础设施共同覆盖所需的全部能力范围（Norman, 1991; Sumers et al., 2024）。

图 1 总结了这一论证。上图追溯了人类认知外化的熟悉弧线；中图呈现了 LLM 智能体对应的弧线——从权重到三个外化维度（记忆、技能和协议）再到统一它们的工程框架；下图将由此产生的文献全景映射到三个能力层——权重、上下文和工程框架。图 3 补充了这一视角，提供了外化智能体的架构概览，展示了工程框架位于中心，三个外化维度及其操作元素围绕其运行。记忆将状态跨时间外化，技能将程序性专业知识外化，协议将交互结构外化。两条弧线之间的平行关系编码了一个递归论断：LLM 智能体本身就是运行在人类最新一次重大外化（数字计算）内部的人工制品。其共同机制是 Norman 意义上的表征转换（Norman, 1991）：回忆变为识别，即兴生成变为组合，临时协调变为结构化契约。

这一视角对于理解当前实践特别有启发意义。当代进展常被叙述为一场追求更大模型、更好训练程序或更复杂推理轨迹的竞赛。这些因素固然重要，但它们并不能完全解释实际系统中观察到的模式。许多可靠性方面的最大提升根本不是因为改变了基础模型，而是因为改变了模型周围的环境：添加持久记忆、组织可复用技能、标准化工具接口、约束执行、检测行为，以及通过显式控制逻辑路由工作（Sumers et al., 2024; Wang et al., 2024a; Li, 2025; Luo et al., 2025）。在实践中，问题越来越不仅是”模型有多大能力？“，而是”哪些负担已经被外化，使模型不再需要每次都从内部解决它们？”

一个没有辅助的 LLM 仍然面临三个反复出现的不匹配，它们直接映射到工程框架的三个维度。其上下文窗口是有限的，会话记忆薄弱或缺失，造成了记忆外化所解决的连续性问题。长的多步骤程序经常被重新推导而非一致地执行，造成了技能外化所解决的方差问题。与外部工具、服务和协作者的交互在仅依靠自由形式提示时仍然脆弱，造成了协议外化所解决的协调问题（Sumers et al., 2024; Packer et al., 2023）。外化之所以重要，是因为它将每一种负担转化为模型能够更可靠处理的形式。

一个具体例子有助于固定这一直觉。考虑一个被要求在大仓库中实现功能、运行测试并打开拉取请求的软件工程智能体。没有外化时，模型必须在脆弱的提示中保持仓库结构、项目约定、工作流状态和工具交互的活跃状态。有了外化，持久项目记忆提供上下文，可复用技能文档编码约定和工作流，协议化工具接口强制执行正确的模式，工程框架则排序步骤、验证输出和管理失败。基础模型可能保持不变；改变的是被要求解决的任务的表征方式。

这一更广泛的视角也与分布式和延展认知的直觉相一致：一旦记忆、引导行动和协调交互的关键部分被委托给外部结构，智能就不再仅仅定位于模型内部（Clark and Chalmers, 1998）。我们借鉴这一传统的核心工程洞见——即”智能体”与”环境”之间的边界是一个具有真实性能后果的设计选择——而不是致力于其更强的本体论主张。我们的焦点是务实的：我们将外化视为一个设计原则，其价值由所得系统的可靠性、可组合性和可治理性来衡量。

我们现在转向构成工程框架的外化的三个维度，每个维度对应图 1（中图）中突出的一个表征转换：

记忆系统跨时间外化状态。

记忆系统不依赖上下文窗口作为历史的唯一载体，而是允许积累的知识——用户偏好、先前的轨迹、已解决的歧义、领域事实——在任何单个会话之外持久存在，并在相关时被选择性地检索。核心转换是从回忆到识别：智能体不再需要从潜在权重中重新生成过去的知识，而是从持久的、可搜索的存储中检索它（Lewis et al., 2020; Park et al., 2023; Packer et al., 2023; Chhikara et al., 2025; Xu et al., 2025b）。

技能系统外化程序性专业知识。

技能系统不依赖模型的权重在每次调用时重新生成特定任务的专门知识，而是将程序、最佳实践和操作指南打包为可复用的制品。核心转换是从生成到组合：智能体从预验证的组件中组装行为，而不是从头即兴设计每个步骤（OpenAI, 2023a; Schick et al., 2023; Wang et al., 2023a; Anthropic, 2025, 2026; Jiang et al., 2026b）。

协议外化交互结构。

协议为发现、调用、委托和权限管理定义了显式的机器可读契约，而不是依赖于与工具、服务和其他智能体的临时提示级协调。核心转换是从临时到结构化：模糊、脆弱的通信变为可互操作、可治理的交换（Anthropic, 2024; Google Cloud, 2025a; Ehtesham et al., 2025c）。

工程框架是承载所有三个维度的工程层，并提供编排逻辑、约束、可观测性和反馈循环，使外化认知在实践中保持一致。它不是与记忆、技能和协议并列的第四种外化，而是这些外化形式运行和交互的运行时环境。

这些维度并非孤立进化。记忆扩展可能会与技能加载争夺稀缺的上下文预算。协议标准化可以提高互操作性，同时约束能力的打包和调用方式。技能执行产生的轨迹后来成为记忆，而记忆检索可以影响接下来选择哪些技能和协议路径。工程框架必须调解所有这些交互。我们在这里预览这些系统级耦合，并在第 7 节中详细分析它们。

这些方向各自发展出了实质性的技术生态系统。记忆研究已经从简单的检索增强发展到更具选择性和分层化的记忆架构（Lewis et al., 2020; Packer et al., 2023; Chhikara et al., 2025; Xu et al., 2025b）。技能相关工作已经从狭窄的函数调用和工具学习扩展到可复用能力包、注册表和渐进式披露机制（OpenAI, 2023a; Schick et al., 2023; Wang et al., 2023a; Anthropic, 2025, 2026; Jiang et al., 2026b）。协议工作已经从自定义工具模式和框架特定的粘合代码转向更标准化的接口层，用于智能体-工具和智能体-智能体交互（Anthropic, 2024; Google Cloud, 2025a; Ehtesham et al., 2025c）。现有的综述揭示了这一全景图的重要切片，包括检索增强生成（Gao et al., 2024）、深度搜索（Xi et al., 2025）、工具学习和使用（Qu et al., 2024）、广泛的智能体架构（Wang et al., 2024a; Li, 2025; Luo et al., 2025）以及协议互操作性（Ehtesham et al., 2025c）。最接近的概念桥梁是 CoALA（Sumers et al., 2024）。尚未充分发展的是对这些发展为何作为外化形式趋同的共同解释，以及这种趋同如何重塑智能体的定义。

因此，我们的目标不是孤立地提供另一个组件级综述，也不是将智能体进步简化为一个特定框架。相反，我们围绕四个主张提供一个系统级综述：

记忆系统跨时间外化智能体的状态，并将长期连续性转化为选择性检索。

技能系统外化程序性专业知识，并将隐式的专门知识转化为显式的可复用操作指南。

协议外化交互结构，并将模糊的通信转化为可互操作的机器可读契约。

工程框架将这些外化模块统一为一个连贯的运行时环境，具有约束、可观测性、反馈循环和控制点。

本文的其余部分结构如下。第 2 节追溯从权重到上下文再到工程框架的历史路径。第 3 至 5 节将记忆、技能和协议分析为三种不同但互补的外化形式。第 6 节将工程框架呈现为外化智能体设计的整合学科，第 7 节检查模块之间的主要跨领域交互。第 8 节讨论朝向更具适应性和自进化形式的外化的未来方向，第 9 节以对智能体研究的更广泛影响作为结论。

3 外化状态：记忆

记忆外化解决了智能行为的时间负担。一个纯粹的语言模型必须在短暂的提示中携带连续性、先前经验、特定用户的事实和未完成的工作。一旦任务跨越会话、分支或中断，这种负担就变得既不稳定又昂贵。记忆将其外化为可在模型之外写入、更新和检索的持久状态。

在被工程框架管理的智能体中，记忆不仅仅是一个档案库。它为可恢复执行提供检查点、可从中提炼技能的轨迹、影响协议路由的统计数据，以及治理机制可以检查和约束的持久状态。为了精确界定这一角色，本节提出三个相互关联的问题：记忆外化了什么负担、设计空间如何进化，以及记忆如何与更广泛的工程框架耦合。第 3.1 节阐明了哪些类型的状态被外化；第 3.2 节调查了主要的架构选择；第 3.3 节转向被工程框架管理的智能体系统所施加的需求；第 3.4 节通过认知人工制品的视角解释记忆来结束本章。

Refer to caption 图 4：记忆作为外化状态。来自短暂上下文窗口和环境反馈的原始上下文被转换为四个持久记忆维度——工作上下文、情景经验、语义知识和个性化记忆。这些维度通过逐渐更加管理的架构进行组织：单片上下文、检索存储、分层编排（具有提取、整合、遗忘和操作系统式的冷/热交换）以及自适应记忆系统（具有动态模块和基于 MOE、RL 等的反馈策略优化）。在工程框架方面，来自技能和协议的执行轨迹流入外化记忆，外化记忆又通过直接回忆和精心策划的快照向智能体核心提供任务相关内容。

3.1 什么被外化：状态的内容

记忆的本质在于将智能体跨时间的状态与其瞬态上下文解耦。相关内容不是工程框架中的每一个外部制品，而是保持连续性的记录：当前任务状态、过去的执行经验、抽象的知识和持久的用户或环境上下文。为了在长期交互中保持一致的行为，记忆系统必须根据其时间属性和检索需求对这些记录进行分类和管理。借鉴人类记忆的经典分类法并将其适配到 LLM 智能体，我们区分以下四个外化状态维度：

工作上下文。

工作上下文是当前任务的实时中间状态：打开的文件、临时变量、活跃的假设、部分计划和执行检查点。它变化迅速，如果过时就会失去价值，但如果没有外化，一旦上下文窗口重置或进程被中断，它就会消失。编码智能体很好地说明了这一点。通过在提示之外具体化草稿、终端状态和工作区制品，OpenHands 和 SWE 风格的智能体等系统可以从当前操作状态恢复，而不是从头重建它（Wang et al., 2025a; Yang et al., 2024b）。

情景经验。

情景经验记录了过去运行中发生的事情：决策点、工具调用、失败、结果和反思。它的价值不仅仅是档案性的。检索到的情景可以作为具体的先例，帮助智能体避免重复已知错误，并为以后的抽象提供原始材料。Reflexion 通过存储失败尝试的反思摘要作为可复用经验使这一模式变得明确（Shinn et al., 2023）。AriGraph 进一步扩展了这一想法，将陌生环境中的局部交互轨迹视为情景记忆，从中可以构建更广泛的世界模型（Anokhin et al., 2024）。

语义知识。

语义知识存储超越任何单一情景的抽象：领域事实、一般启发式方法、项目约定和稳定的世界知识。与情景记忆不同，它不是围绕特定的时间和地点组织的（Li and Li, 2024; De Brigard et al., 2022）。差异不仅在于粒度，还在于功能。情景记忆说明了一个案例中发生了什么；语义记忆说明了跨案例倾向于成立什么。在当前系统中，知识库和检索增强生成（RAG）语料库是最常见的外化语义记忆形式。更长期的趋势更为雄心勃勃：智能体越来越多地尝试从积累的轨迹中提取语义指导，而不仅仅依赖于静态的人类编写文档。

个性化记忆。

个性化记忆跟踪特定用户、团队或环境的稳定信息：偏好、习惯、反复出现的约束和先前的交互。这种状态不应该被折叠到智能体的一般自我改进存储中，因为特定用户的轨迹遵循不同的保留、检索和隐私规则（Xi et al., 2024; Lin et al., 2025a）。最近的系统使这种分离变得明确。IFRAgent 从移动环境中的演示构建用户习惯仓库（Wu et al., 2025）；Web 智能体使用外化配置文件来推断隐式偏好（Cai et al., 2025）；而 VARS 等对话系统将会话间偏好卡存储在隔离的用户记忆空间中（Hao et al., 2026）。因此，个性化记忆是让智能体能够随着时间的推移进行适应而不将长期用户建模与一般任务知识混淆的层。

这四个层次并没有穷尽所有可能以后对智能体有用的东西。重复的程序规律性可能首先作为情景轨迹中的模式出现，但一旦工程框架将它们提升为显式的可复用指导，它们就不再是严格意义上的记忆。在那时，它们属于技能层而不是记忆层。

总而言之，这些层次表明记忆外化的不是单一的同构数据库，而是多层抽象下的连续性时间负担。工作上下文支持即时恢复，情景记录支持反思和恢复，语义记忆支持抽象和迁移，个性化记忆支持跨会话对用户和环境的适应。工程框架必须以不同方式对待这些存储，因为每一个都改变了模型否则必须从内部恢复的不同部分。

3.2 如何外化：记忆架构

当这些层被外化时，主要的设计问题变为主动推理与存储状态的分离程度有多积极。按照 Du（2026a）的分类法，当前系统可以被解读为四种广泛的架构范式：单片上下文、带检索存储的上下文、分层记忆与编排以及自适应记忆系统。这一进程不仅仅是朝着更大的存储发展，而是朝着更明确的策略发展——关于什么被写入、提升、检索、压缩或遗忘。

3.2.1 单片上下文

早期系统依赖于单片上下文：所有相关历史或其摘要都直接保留在提示中。这种设计是透明的，易于原型设计，因为不需要单独的存储服务，而且对于短任务来说，它可以出奇地好地工作。其限制是结构性的。容量扩展不佳，摘要会发生漂移，模型必须花费稀缺的标记来同时携带历史和解决当前步骤。最重要的是，状态随会话消失，因此智能体不会积累持久的经验。

3.2.2 带检索存储的上下文

主导性的下一步是仅将近期工作状态保留在上下文中，同时将更长期轨迹存储在外部并按需检索。这种”上下文加检索存储”模式是生产环境中 copilots、助手和编码智能体中大多数实用记忆系统的基础。它解决了原始容量问题，但将记忆质量变成了检索问题。如果浮现了错误的记录，模型会分心；如果遗漏了正确的记录，系统的行为就好像它从未记住过它们一样。

最近的研究从多个方向攻击这一瓶颈。GraphRAG（Edge et al., 2024）添加了图结构和社区级检索，ENGRAM（Cheng et al., 2026）将记忆压缩为潜在状态表示，SYNAPSE（Zheng et al., 2023）使用统一的情景-语义图上的扩散激活来恢复不太局部的关联形式。这些方法在机制上有所不同，但它们有着相同的目标：用更匹配长期推理的表示来替代扁平的相似性搜索。

3.2.3 分层记忆与编排

一旦扁平检索被证明不足，系统就会转向分层记忆和编排。关键思想是：不是每个轨迹都应该享有相同的保留策略或检索路径。Mem0（Chhikara et al., 2025）、Memory-R1（Yan et al., 2025b）和 Mem-α（Wang et al., 2025b）等框架引入了提取、整合和遗忘的显式操作，将记忆转变为被管理的生命周期而不是被动存储。两个设计倾向主导这一领域：

时空维度中的资源解耦。一个分支借用操作系统的逻辑，将记忆视为必须积极管理的受限资源。MemGPT（Packer et al., 2023）和 MemoryOS（Kang et al., 2025）将热工作状态与冷长尾存储分开，并随着任务需求的变化在各层之间交换信息。其收益是在固定上下文预算下获得更高的有效容量。

认知功能维度中的语义解耦。第二个分支按功能或内容类型组织记忆，使异质记录不会都通过同一通道路由。MemoryBank（Zhong et al., 2024）和 MIRIX（Wang and Chen, 2025）分离事件、用户配置档案和世界知识；MemOS（Li et al., 2025）区分显式和隐式记忆；xMemory（Hu et al., 2026）构建主题-事件层次结构。目标不仅仅是整洁的分类学，而是在复杂任务条件下更精确的检索。

3.2.4 自适应记忆系统

上述架构仍然严重依赖人类设计的启发式方法。自适应记忆系统更进一步，使模块、路由决策或检索策略对经验做出响应。两个方向尤为明显：

动态模块。一些系统在运行时自适应架构本身。MemEvolve（Zhang et al., 2025a）将记忆生命周期分解为单独的编码、存储、检索和管理模块，这些模块可以在执行期间独立进化。MemVerse（Liu et al., 2025a）维护短期缓存和多模态知识图谱，同时定期将碎片化经验提炼为更抽象的知识和轻量级神经组件。

基于反馈的策略优化。其他系统保持架构相对固定，但学习更好的控制策略。MemRL（Zhang et al., 2026c）通过非参数强化学习更新检索行为。Zhang 等人（2025c）提出的自适应框架使用混合专家门控来动态路由查询，GAM（Yan et al., 2025a）在多轮交互中优化检索条件。

在这些阶段之间，主要转变是从存储到控制。单片上下文解决了存在性问题，检索存储解决了容量问题，分层系统解决了组织问题，而自适应系统开始解决策略问题。因此，记忆不再是提示的被动附录。在成熟的智能体中，它成为决定模型能够有效作用于什么过去的工程框架控制面的一部分。

3.3 工程框架时代的记忆需求

随着智能体进化到工程框架时代，记忆系统不再仅仅是孤立的存储模块；相反，它们成为运行时协调连续性、程序复用和受控交互的基质。问题不再仅仅是如何存储更多信息，而是如何使时间状态对规划、执行和恢复循环具有选择性可读性。

因此，工程框架环境要求记忆系统明确地将状态与上下文分开。在具有极长时间跨度的任务中，会话历史的无限制积累会导致模型失去对其注意力机制的跟踪。InfiAgent（Yu et al., 2026）等框架提出了一种以文件为中心的状态抽象，主张将文件系统作为任务状态的唯一权威记录，其中一切——从高级规划到中间变量和工具输出——都必须实时写入。在每个决策步骤中，智能体不再读取冗长的历史，而是读取工作区的精选快照和少量近期动作。这是记忆核心表征角色的工程框架级表达：不是在提示中保留所有历史，而是以模型可以对其采取行动的形式具体化当前状态。

记忆还必须与技能系统集成，但这两个层扮演不同的角色。记忆存储先前执行的证据：轨迹、结果、失败以及用户或任务特定的上下文。只有当其中一些证据被提升为显式的可复用程序时，技能才开始。相反，每次技能执行都会产生必须写回记忆的新轨迹。因此，记忆本身不是程序指导，而是可以从中导出此类指导的证据基础。

协议耦合提出了进一步的要求。工具结果、审批、委托事件和外部状态转换可能通过协议化接口到达，但它们只有在被标准化并写入持久状态后才成为记忆。相反，记忆检索可能会影响接下来应选择哪个协议路径。在成熟的工程框架中，记忆和协议通过受控的读/写循环连接，但它们在概念上仍然不同：协议治理交换，而记忆治理跨时间的持久性。

最后，一旦多个智能体依赖共同的外化状态，共享和治理机制就变得强制性。建立记忆的读/写权限、解决存储事实之间的冲突以及控制每个智能体对共享知识的访问配额，都需要与操作系统相当的低级控制能力。因此，工程框架时代的记忆最好被理解为被管理的状态基础设施：它外化时间负担，重塑模型必须在内部记住什么，并为工程框架的其余部分提供持久的基质。

3.4 记忆作为认知人工制品

前面的部分调查了记忆系统的内容、架构和工程框架集成。这最后一节退后一步，解释记忆外化作为表征转换所取得的成就，借鉴 Norman 的认知人工制品理论（Norman, 1993）和 Kirsh 的互补策略论述（Kirsh, 1995）。

现代 LLM 是无状态生成器：每次调用都从全新的上下文开始，因此连续性必须被重建而不是向前携带。在短交互中，这一限制可以隐藏在提示中。在长期工作中，它变成了结构性的。过去的尝试、部分完成的工作、特定用户的事实和环境状态都不能在不产生成本、漂移和最终截断的情况下全部保留在上下文中。因此，有界模型面临的原始任务在原则上是难以处理的：在保持对当前清晰推理的同时，保持实际上无界的历史可用。

记忆外化改变了该任务的结构。用 Norman 的话说，表征转换将内部回忆问题转换为外部识别和检索问题。模型不再需要从其参数中恢复相关历史；它必须识别并使用记忆系统已经浮现的精心策划的历史片段。这与 Norman 关于外部列表如何改变记忆本质的分析非常相似：关键点不是添加了额外信息，而是认知任务本身的形式被重新组织了（Norman, 1991）。同样的转变在第 2.2 节中在上下文层面被识别；记忆将其扩展到单个上下文窗口无法跨越的会话和时间跨度。

这一解释阐明了为什么检索质量比原始存储容量更重要。拥有海量存储但检索能力弱的系统仍然向模型呈现错误的问题表示：历史存在，但任务没有被转换。相比之下，具有强索引、摘要和上下文选择的适度存储可以使下游推理显著更容易。因此，记忆的成功标准不是”我们保存了多少？“而是”我们是否使当前决策变得可读？”

同样的视角也阐明了 Kirsh 的互补策略概念，根据该概念，智能体不仅通过在内部更努力地思考来提高性能，还通过重组外部环境使一些认知工作卸载到其中（Kirsh, 1995）。记忆系统正是为时间维度实现了这一策略。工程框架不是强迫模型在内部携带所有相关状态，而是外化了持久性、新鲜度管理和相关性过滤，同时将解释和上下文判断留给模型。这种分工是互补的：每一方都处理它最擅长的任务部分。

认知人工制品视角还将常见故障模式解释为表征设计的失败，而不仅仅是实现错误。过时的记忆通过提供过时的问题表示来错误表征当前。过度抽象的记忆丢失了当前决策所需的操作细节。抽象不足的记忆用噪音淹没提示，降低了外化本应简化的识别任务。被投毒或冲突的记忆通过将不正确的前提嵌入检索片段来污染未来的推理。在每种情况下，记忆系统的失败不是因为它存储得太少或太多，而是因为它没有将历史转化为可用的现在。

从这个角度来看，记忆不仅仅是扩展有效上下文的工程便利。它是一种重塑智能行为时间负担的认知人工制品。通过将无界回忆转换为有界的、精心策划的检索，它改变了模型在每个决策点面临的任务。正是这种转换将本节调查的架构进程——从单片上下文到自适应系统——连接到一个单一的底层设计目标：在正确的时刻使正确的历史可读，使模型的固定推理能力用于推理而不是记忆。

4 外化专业知识：技能

技能外化解决了智能行为的程序性负担。语言模型原则上可能知道如何解决任务，但可靠的执行仍然需要在每次尝试任务时重新构建工作流、默认值和约束。这种负担随着任务长度、环境特异性和分支决策数量的增加而增长，并表现为方差：遗漏步骤、不稳定的工具使用和不一致的停止条件。

因此，技能引入的表征转变是从重复综合到可复用程序。技能系统不是要求模型在每次运行时从权重或临时提示中重新生成特定任务的专门知识，而是将这种专门知识打包为可发现、加载、修改和组合的显式制品。这主要不是扩大智能体可用的动作集，而是改变了模型在运行时面临的任务——从发明工作流变为选择和遵循一个工作流（Xu and Yan, 2026b; Wang et al., 2026a）。

在被工程框架管理的智能体中，技能位于记忆和动作之间。它们通常根据检索到的状态被选择，通过协议化接口与工具和子智能体绑定，并根据执行轨迹和事后反思进行更新。如第 3 节所述，记忆外化了随着时间的推移学到的东西；技能外化了这些积累的经验如何变成可复用的操作结构（Sumers et al., 2024; Wu and Zhang, 2026）。因此，本章关注三个相互关联的问题：技能外化了什么负担、技能如何重组任务执行，以及它们如何在更大的工程框架中变得可操作。

Refer to caption 图 5：技能作为外化的专业知识。该图追踪了技能通过三个阶段（调用、选择和程序）的完整生命周期。技能获取 展示了程序性专门知识进入系统的四条路径：由专家编写、从情景记忆和轨迹中提炼、通过环境探索和自我诱导发现，或由现有单元组合而成。技能制品 将这种专门知识打包为操作程序、决策启发式方法和规范性约束，并附有声明能力、前提条件和范围的表现文件。激活管道 通过语义抽象处理基于注册表的发现、从抽象摘要到完整指南的渐进式披露，以及将技能与工具、API、文件、智能体和协议绑定的组合。运行时 展示了活动上下文和 LLM 如何执行所选技能，而边界条件——过时、可移植性限制、上下文依赖退化和不安全组合——约束了可靠性。

4.1 什么被外化：程序性专业知识

技能外化关注的是程序性专业知识而不是孤立的动作接口。这里的专业知识意味着在重复假设和约束下执行任务的可重复方式，而不是模糊地声称模型”能够”做某事。从该定义可以得出一个有用的界限：工具暴露操作，协议治理这些操作的描述和调用方式，技能编码一类任务应该如何与它们一起执行。在实践中，这种专业知识有三个耦合组件：操作程序、决策启发式方法和规范性约束。它们共同定义了工程框架可以外化的可复用专门知识单元。

4.1.1 操作程序

操作程序是任务的骨架：将复杂工作分解为步骤、阶段、依赖关系和停止条件。它解决了 LLM 智能体中的一种常见故障模式。许多错误不是来自动作层面的无能，而是来自过程层面的不稳定性，例如跳过的步骤、错误排序的操作或过早终止（Hsiao et al., 2025; Nandi et al., 2026）。外化程序将这种脆弱的过程知识转化为显式的操作路径。

这一转变在更广泛的 LLM 推理进化中有着深厚的根源。思维链使中间推理变得显式（Wei et al., 2023）；ReAct 将推理与动作耦合（Yao et al., 2023a）；后来的提示链和编排系统将重复模式打包为 engineered 工作流。这些方法通常缺乏的是持久性。程序存在于当前运行中，但还没有作为可复用的制品存在。技能系统通过将工作流结构转化为可以存储、修改和重新应用的东西来弥补这一差距（Ye et al., 2025）。

一旦程序被外化，执行就变得不那么即兴了。智能体可以在中断后恢复，跨上下文或协作者移交工作，并在不从记忆中重建整个工作流的情况下恢复状态。这在长期、多智能体和生产环境中最为重要，在这些环境中，过程稳定性通常比瞬时流畅性更重要。

4.1.2 决策启发式方法

如果程序定义了执行的骨架，决策启发式方法则治理分支处发生的事情。真实任务很少作为固定管道展开。工具会失败，观察会有噪音，几个局部合理的动作可能会竞争。在这些条件下，良好的性能取决于从经验中得出的实用经验法则，而不仅仅是穷尽搜索（Gigerenzer and Gaissmaier, 2011）。

外化这些启发式方法改变了推理努力的分布。系统不是在每个节点都强迫模型重新发现局部策略，而是可以编码已经证明有用的默认选择、升级规则或偏好排序。这减少了审议成本，也使行为更加稳定。因此，启发式方法不是次要的便利。它们是技能捕获专家风格的主要方式之一：首先尝试什么、何时后退、什么证据是充分的，以及在多条路径仍然可行时首选哪些权衡。

4.1.3 规范性约束

第三个组成部分是规范性约束：一个程序被视为可接受的条件。一个工作流可能在技术上有效，但仍然不合规、不安全或在操作上错误。在实际部署中，执行受到测试要求、范围限制、访问限制、可追溯性期望和领域特定操作规则的约束（Chen et al., 2021; Bai et al., 2022b; Wei et al., 2023; Schick et al., 2023; Madaan et al., 2023）。

一旦被外化，这些约束就不再仅仅是事后评估标准，而是成为技能本身的一部分。它们可以塑造前提条件、阻止不安全的分支、需要中间验证，或定义在完成之前必须产生的证据。这使得技能能够编码的不仅是如何执行任务，还包括如何在组织和安全边界内执行任务。在成熟的系统中，这使得技能既是治理的载体，也是能力的载体。

综上所述，操作程序提供结构，决策启发式方法提供局部策略，规范性约束提供可接受的边界。只有当所有三个都被充分指定以在任务、上下文和运行中存活时，技能才是可复用的。这就是为什么技能位于动作接口之上、记忆之旁：它们外化的不是过去的状态和原始执行原语，而是可复用的任务专门知识。

4.2 从执行原语到能力包

技能系统并非孤立出现，但也不应与工具使用混为一谈。从历史上看，技能处于两个早期发展的下游：可靠的动作调用和大规模动作选择。这些阶段扩展了智能体可以_做_什么，但还没有扩展一类任务应该如何被重复执行。只有当程序组织本身成为显式的可复用制品时，技能才会出现。

4.2.1 阶段 1：原子执行原语

第一个阶段为语言模型配备可靠的动作执行能力，例如通过结构化具调用和函数调用接口。Toolformer 是代表性工作，展示了模型可以学习何时调用工具、如何构建参数以及如何整合结果（Schick et al., 2023）。这一阶段的关键成就是稳定访问原子动作单元。它_没有_提供的是完成更广泛任务类的显式可复用程序。单元是动作原语，而不是技能。

4.2.2 阶段 2：大规模原语选择

随着可调用的工具数量增加，问题从调用转向选择。Gorilla、ToolLLM、ToolNet、ToolScope 和 AutoTool 等工作表明，模型可以在大型工具集合中检索、排序和动态选择（Patil et al., 2023; Qin et al., 2023; Liu et al., 2024b, 2025b; Zou et al., 2025）。这是朝着可扩展动作选择迈出的重要一步，但单元仍然是工具而不是程序。即使多步骤行为开始涌现，完成任务类的专门知识仍然主要隐含在提示或参数中，而不是外化为有界的可复用制品。

4.2.3 阶段 3：技能作为打包的专门知识

第三个阶段标志着抽象的进一步转变。核心问题不再是模型是否可以调用函数或检索合适的 API，而是完成任务类所需的专门知识是否可以打包为可复用的能力单元。在这个阶段，能力的基本单元不再是孤立的工具调用，而是以可复用程序指导和执行结构为中心的更高级别的制品（Wang et al., 2025c; Chen et al., 2026b）。技能不再仅仅指定可以做什么，而是越来越多地通过可复用的程序组织来捕获任务应该如何被执行（Li et al., 2026c）。

最近的工作使这一转变变得越来越明确。基于程序的技能归纳将原始动作编译为更高级别的可复用技能，表明智能体能力可以表示为可执行的程序抽象而不是单次调用（Wang et al., 2025c）。在 Web 环境中，交互轨迹可以被提炼为可复用的技能库或技能 API，使智能体能够跨任务积累和完善可迁移的专门知识（Zheng et al., 2025a）。在计算机使用设置中，技能被进一步组织为参数化执行和组合图，检索、参数实例化和故障恢复在技能层面而非单个接口动作层面运行（Chen et al., 2026b）。关于 SOP 引导智能体的相关工作同样表明，领域专业知识可以被外化为显式的程序结构，根据领域特定程序指导执行（Ye et al., 2025）。

与早期阶段相比，这里的关键转变是表征性的而不仅仅是操作性的。能力不再主要被视为对工具或 API 的访问，而是越来越多地作为可以跨任务加载、复用和组合的打包程序知识（Li et al., 2026c; Xu and Yan, 2026b）。从这个意义上说，阶段 3 不仅仅是使工具使用更加复杂，而是反映了将智能体能力表示为外化的和可复用的程序专门知识的转变。

4.3 技能如何被外化

技能外化不仅仅在于写下指令。在成熟的智能体系统中，关键问题是程序性专业知识是否可以以可发现、可加载、可解释、可绑定和可在运行时执行的形式表示。因此，技能外化涉及表征层和运行时层。前者决定技能如何被描述和划定界限，而后者决定它是否可以在任务执行期间实际作为可复用能力发挥作用（Xu and Yan, 2026b）。用工程框架的术语来说，只有当运行时可以决定何时加载它、根据哪些记忆调节它以及将它绑定到哪些工具、文件或子智能体时，技能才变得真实。这种绑定要求并不使技能等同于工具或协议；它只是意味着程序性专业知识最终必须扎根于可执行接口。

4.3.1 规范

技能的外化始于规范层。典型形式包括 SKILL.md、指令文件、清单或其他声明性规范制品。这些制品描述技能做什么、适用于什么场景、假设什么依赖关系、必须满足什么约束，以及应该在什么输入-输出条件下操作。技能规范更像 API 文档而不是 API 实现。其价值在于将程序性专业知识从不透明的内部状态转变为可以被检查、讨论、修改和治理的显式对象（Ling et al., 2026）。

一个格式良好的技能规范理想情况下应该至少涵盖五种信息，即能力边界、适用范围、前提条件、执行约束以及示例和反例。前两种澄清了技能旨在解决什么样的问题。接下来的两种澄清了它可以在什么时候安全使用以及在什么操作假设下使用。最后的类别有助于将预期的使用模式锚定在具体案例中，从而减少模型的不充分指定解释。通过这种结构化规范，技能从非结构化的提示技巧提升为有界的能力描述，进而为发现、加载、版本控制和治理提供基础。

4.3.2 发现

一旦技能成为显式制品，它们自然会引入注册和发现的问题。在现实设置中，智能体不能为每个任务不加区分地加载每一个可用的技能。因此，它需要某种形式的注册表和发现机制来支持选择性检索。技能可以发布到本地仓库、组织注册表或平台级市场，而智能体则根据任务目标、上下文状态和环境条件搜索相关候选（Zheng et al., 2025a）。

这一发现过程可能依赖于语义检索、结构化元数据、任务分解或这些策略的组合，具体取决于系统设计。关键点是：系统不仅仅是在问哪个工具可以被调用，而是在问哪个程序性专业知识单元适合当前问题。这使得技能发现成为一个更高级别的匹配问题。它不仅必须考虑主题相似性，还必须考虑任务复杂性、环境假设、操作约束和风险条件。因此，技能的检索不仅仅是因为其关键词与任务描述重叠，而是因为它与当前任务的语义和操作结构真正兼容（Ross et al., 2025）。如果技能仅仅被存储，技能外化就是不完整的。它还必须在现实任务条件下可检索。

4.3.3 渐进式披露

技能的发现并不意味着其全部内容应立即注入活动上下文。因为长上下文并不能可靠地转化为更好的性能，详细的指令可能成为推理噪音的来源而不是指导的来源。因此，当前技能系统通常受益于渐进式披露策略，即首先暴露技能的存在，只有在需要时才加载更深的细节（Xu and Yan, 2026b）。

在当前的工业实现中，这通常采用分层形式。在最低级别，模型只看到技能的名称和简短描述，这足以表明该能力存在。更深的级别可能暴露类似清单的信息，如适用条件、所需前提条件和主要约束。只有在最深层次，系统才会加载完整指南，包括详细程序、异常处理、示例和支持文件。这种分阶段加载的目的不仅仅是压缩文档。更根本的是，它将是否需要更多技能细节的问题本身变成了一个运行时决策。通过这种方式，技能的信息密度可以与当前任务的复杂性相匹配，而不是一开始就用不必要的细节饱和上下文。这种设计在当前技能的工业实现中尤为明显，例如 Claude Code 的技能系统（Anthropic, 2025）。

4.3.4 执行绑定

除非技能连接到可执行动作，否则它仍然是一个认知层面的描述。因此，实际任务完成依赖于一个绑定过程，该过程将技能的自然语言或结构化规范转换为当前环境中的具体操作。正是在这一点上，技能、工具和协议之间的区别变得清晰。

技能通常本身不是动作执行器。相反，它必须绑定到更低级别的运行时基质，如工具、文件、API、子智能体、协议端点或其他执行接口。技能可能指定智能体应该搜索相关代码、运行测试并总结生成的 diff，但动作本身由搜索工具、文件操作、shell 命令和测试运行器执行。因此，工具提供可执行操作；协议治理这些操作的描述和调用方式；技能提供将它们组合为可重复任务完成的高层策略。

这种绑定通常需要一个中间解释层，该层确定在当前上下文中应该激活哪些技能步骤、应该绑定哪些原语、哪些条件应该触发分支以及哪些约束应该优先。没有这样的解释和绑定过程，技能很容易保持为一个原则上可读但实际上不可用的静态制品。更一般地说，MCP（Anthropic, 2024）等基于模式的接口通过使能力可发现和可调用来支持这一运行时绑定层，而不会将技能坍缩为工具或协议本身。

4.3.5 组合

当技能可以被组合时，技能系统的价值得到了最充分的实现。与原子工具不同，技能可以参与高阶结构化协调，使复杂任务可以被分解为多个能力包的合作。常见的组合模式包括串行执行、并行分工、条件路由以及在更高级别技能中递归调用子技能（Wang et al., 2023a）。

这种组合性意味着技能不仅仅是供模型消费的文档，而是智能体架构内可调度的运行时单元。更重要的是，组合不仅仅是多个程序片段的连接，而是程序性专业知识本身的更高级别复用。例如，生成数据分析报告的技能不需要作为单一端到端程序来实现，而是可以组织为用于数据清洗、统计分析、可视化和叙事合成的较小技能的协调组合。通过这种方式，系统不仅获得了更强的任务性能，还获得了更好的可维护性、可替换性和可审计性。因此，组合标志着技能成为真正能力层而不是孤立配方集合的点（Yu et al., 2025）。

总的来说，技能外化不应被理解为静态指令文件的简单发布。它是一个协调过程，其中程序性专业知识被规范、可发现、选择性披露、绑定到可执行基质并组合为更大的能力结构。重要的不仅是技能是否可以被写下来，而是它是否可以可靠地进入智能体的运行时，作为与检索到的状态和协议化接口互操作的可用动作单元。因此，技能的外化标志着从非正式提示向智能体系统更明确的能力层的转变。

4.4 技能获取与进化

技能系统之所以重要，不仅因为它存储了编写的指令，还因为它提供了一条将成功行为转化为可复用专业知识的路径。因此，技能获取最好被理解为一个进化过程，其中程序性知识随着时间的推移被编写、提取、发现和重新组合（Xu and Yan, 2026b）。

编写。

手动编写仍然是技能进入当前系统的最常见和最稳定的途径。无论是 SKILL.md、AGENTS.md、项目级指令文件还是组织 SOP 模板，这些制品都是人类设计的程序性能力包的实例。它们的重要性不仅在于提供初始能力，还在于支持迭代修订。当智能体在部署中反复表现出故障模式时，工程师可以更新相应的技能，使一次观察到的失败变为清晰的程序或添加的约束。通过这种方式，编写的技能文档不仅仅是描述性的。它还充当了一个实用接口，通过该接口，操作经验逐渐转化为可复用的行为结构（Ling et al., 2026）。

提炼。

技能也可以从历史轨迹、实践痕迹或其他存储的经验中归纳出来。情景记录保存了智能体之前做了什么以及为什么轨迹成功或失败。当某些成功的结构跨任务重复出现时，系统可以将这些模式抽象为更稳定的程序单元。从这个意义上说，记忆保存了经验，而技能归纳提取了其中的可复用结构。现有证据最直接地支持了这一过程，当该过程被框架化为从交互轨迹中归纳，而不是作为记忆自动变为技能的广泛主张时。例如，技能集优化从有奖励的子轨迹中提取可迁移技能（Nottingham et al., 2024）。在记忆管理设置中，MemSkill 进一步表明某些记忆操作本身可以被重新表述为可学习和可进化的技能（Zhang et al., 2026a）。

发现。

除了手动编写和事后提炼，智能体还可以通过环境交互自主发现新技能。Voyager 在 Minecraft 设置中提供了一个有影响力的例子，其中探索、执行反馈、自我验证和课程驱动的任务选择共同产生了一个不断增长的 Executable 代码技能库（Wang et al., 2023a）。最近的研究表明，这一发现过程也可以面向泛化。例如，PolySkill 通过将抽象目标与具体实现分离来提高技能复用（Yu et al., 2025）。一旦智能体能够识别反复成功的行为模式并将它们提升为显式技能，技能库就不再仅仅是存储层，而是能力增长的机制。

组合。

最后，技能可以通过组合进化。许多高级能力不是从头发明的，而是从现有的低级或中级技能中组装而成的。报告生成或代码修复等复杂工作流可能从较小能力的反复协调中涌现。组合在这里不仅作为执行策略重要，还作为获取机制重要。一旦特定现有技能的组合被反复验证为有效，该组合本身就可以被打包为新的高级技能。通过这种方式，组合生成了新的可复用单元，并逐渐产生分层技能库而不是孤立能力的扁平列表（Wang et al., 2025c）。

总的来说，技能获取不是一次性的设计步骤，而是编写、提取、发现和重新组合程序性知识的持续过程。因此，成熟的技能系统更多地由其如何有效地将经验转化为可复用的外化专业知识来定义，而不是由其存储了多少指令来定义。在被工程框架管理的智能体中，这一进化循环本身被系统化了：记忆提供证据，评估者决定什么值得提升，协议化执行表面决定候选技能是否可以实际部署。

4.5 边界条件

技能外化提高了复用性和治理性，但它并不保证可靠性。一旦程序性专业知识被外化为显式制品，其有效性就取决于该制品与任务、环境和运行时的匹配程度。在实践中，主要边界条件涉及语义对齐、可移植性和过时性、不安全组合以及上下文依赖退化。

语义对齐。

技能规范以自然语言或轻量级结构化形式表达意图和指导，而实际执行依赖于具体工具、API 和环境约束。因此，模型可能遵循技能的字面措辞，但仍然错过任务的真正目标。现有证据表明，技能的有效性在很大程度上取决于任务意图、技能描述和调用决策之间的对齐。SkillProbe 将语义-行为不一致识别为现有技能市场的一个根本缺陷（Guo et al., 2026）。关于工具使用决策的相关研究同样表明，关键困难通常不仅在于是否可以调用外部能力，还在于是否应该在当前任务解释下调用它（Ross et al., 2025）。这表明外化技能仍然对描述和使用之间的不匹配敏感。

可移植性和过时性。

即使技能在内部是一致的，也不能假设它在不同环境中的有效性。网站、API、依赖项、工作流或运行时约定的变化可能使曾经有效的技能部分具有误导性或完全过时。更广泛地说，智能体框架、工具基质和基础模型之间的异质性意味着相同的技能在不同设置中的行为可能不一致。程序化技能工作已经表明，某些归纳的技能可以在网站之间迁移，而不兼容的技能必须更新以适应环境变化（Wang et al., 2025c）。SkillsBench 进一步表明，技能效用在领域和模型-智能体配置之间有显著差异（Li et al., 2026c）。更广泛的含义是，技能可移植性最好被视为条件经验属性，而不是外化的内在特征。

不安全组合。

组合使技能更强大，但也带来了新风险。单独看来无害的技能在组合时可能会不安全地交互，特别是当它们捆绑了长格式指令、可执行脚本和外部依赖时。在这种情况下，问题不仅限于单个技能制品，而是从多个制品和连接它们的接口之间的交互中涌现。这是现在已有直接证据的边界条件之一。对公共技能生态系统的大规模实证研究报告了大量漏洞，包括提示注入、数据外泄、权限升级和供应链风险（Liu et al., 2026）。面向攻击的研究进一步表明，技能文件本身可以成为当前智能体的现实提示注入表面（Wang et al., 2026c）。因此，技能组合应该被视为安全敏感过程，而不是纯粹良性的模块化复用形式。

上下文依赖退化。

进一步的困难是技能执行可能会在extended交互中退化。即使技能文件已被更新，智能体可能仍然遵循过时的操作逻辑，因为残留的会话上下文、缓存的摘要或先前强化的动作模式。同时，当太多局部程序细节被注入上下文时，详细的技能指南可能会干扰全局任务跟踪。在这种情况下，模型可能仔细执行指令，同时失去了对真正成功条件的关注。这些效果的直接技能特定证据仍然有限，但关于多轮漂移、长期可靠性和长上下文推理的相邻研究强烈表明它们是现实的边界条件（Lee, 2026）。因此，技能加载不仅应该被视为检索问题，还应该被视为上下文分配和执行稳定性问题。

综上所述，这些边界条件表明，技能不是一个一旦编写就保持稳定的自给自足的模块。其有效性取决于与任务、环境、运行时条件和安全约束的持续对齐。因此，技能不应被视为孤立的制品，而应被视为嵌入在更广泛工程框架中的组件。这正是为什么技能设计最终指向制品本身之外的工程框架的原因。

4.6 工程框架中的技能

上述边界条件表明，技能不能作为独立制品来评估。它们的可靠性取决于它们在运行系统中的定位方式。本节检查技能一旦嵌入工程框架中如何变得可操作，重点关注将它们与记忆、协议和运行时治理连接的耦合。

基于记忆的条件化。

技能根据检索到的状态被选择和参数化。工程框架查询记忆以获取任务历史、先前结果、特定于用户的上下文和环境约束，然后使用该证据来决定加载哪个技能、实例化哪些参数以及偏好哪些分支。没有这个条件化循环，技能选择会退化为针对任务描述的关键词匹配。有了它，同一个技能可以根据智能体之前学到的东西以不同方式应用。因此，记忆提供了使技能选择具有上下文性而非通用性的情境证据。

通过协议绑定。

一旦被选中，技能必须扎根于可执行动作。这种扎根通过协议化接口传递：工具模式、子智能体委托契约、文件操作和审批工作流。工程框架通过解析当前可用的协议端点、检查权限并将技能步骤路由到适当的执行基质来调解这种绑定。因此，技能和协议是互补的：技能指定应该做什么；协议指定生成的动作如何被描述、调用和治理。

运行时治理。

在生产环境中，工程框架还对技能执行施加治理。这包括敏感操作之前的权限检查、高风险步骤的审批门、加载了哪个技能以及它产生了什么动作的审计日志记录，以及在多步骤程序中途执行失败时的回滚机制。这些控制不是技能制品本身的一部分；它们是技能运行的工程框架环境的属性。在沙盒开发上下文中安全有效的技能在生产部署中可能需要额外的约束，而工程框架是强制执行这些约束的层。

生命周期反馈。

最后，工程框架关闭了技能执行和技能进化之间的循环。执行轨迹、成功率、故障模式和用户更正被写回记忆。随着时间的推移，这些证据可能触发技能修订、弃用或新候选技能的提升。因此，工程框架不仅仅是托管技能；它提供了技能通过其改进的反馈基础设施。这个循环将技能获取（第 4.4 节）与运行时操作连接起来：编写或发现的技能进入工程框架，工程框架治理它们的执行，执行结果反馈到未来技能从中衍生的证据库中。

4.7 技能作为认知人工制品

以下解释主要是理论性的而不是直接经验性的。它借鉴了关于认知人工制品的经典工作，以帮助解释为什么外化技能可以改善程序性专业知识的组织，而不是声称这些理论最初是为 LLM 智能体开发的。

从 Norman 的认知人工制品理论的角度来看，技能系统可以被理解为沿着能力组织维度的表征转换（Norman, 1993）。没有外化技能时，模型必须在任务执行期间反复从内部参数重建程序性知识。有了技能，部分程序负担被移动到可以加载、检查和遵循的显式外部表示中。这将任务从不稳定的潜在程序回忆转向更稳定的识别适用指导并在其下行动的过程。在这方面，技能文件的作用与 Norman 关于外部列表如何改变记忆本质的分析非常相似。关键点不仅仅是添加了额外信息，而是认知任务本身的形式被重新组织了。

这种重新组织很重要，因为它改变了模型在推理时必须做的事情。在没有技能的情况下，模型必须在当前上下文的压力下从其参数中概率性地恢复合适的进行方式。一旦技能被外化，程序结构就已经作为环境中的对象存在。模型的负担转向解释当前情况、识别技能是否适用、遵循相关指导以及处理局部异常。因此，程序性知识不再是每次运行都必须从头重建的东西。它成为了可以直接操作的外部对象（Li et al., 2026c; Xu and Yan, 2026b）。

这一解释也与 Kirsh 的互补策略概念相一致，根据该概念，智能体不仅通过在内部更努力地思考来提高性能，还通过重组外部环境使一些认知工作卸载到其中（Kirsh, 1995）。LLM 在稳定和可重复地再现长多步骤程序方面通常不是特别可靠。相同的提示在不同运行中可能会产生不同的分解、分支决策或停止条件。相比之下，它们在阅读显式指导、将其与当前上下文匹配并在所述约束下局部适应执行方面相对较好。因此，技能可以被理解为一种工程化的互补策略。它将程序定义、约束和部分最佳实践外化为制品，同时将解释、上下文匹配和异常处理留给模型本身。

技能不仅仅是向系统添加更多信息。它改变了能力的组织方式。程序性专业知识从难以审计的不透明参数空间移动到可检查、可修改和可组合的外部结构中。这就是为什么技能的意义不仅在于工程便利性，还在于专业知识驻留位置和如何变得可用于复用的更深层次重新分配。从这个角度来看，技能最好被理解为不仅仅是提示或工具包装器，而是智能体系统中组织程序能力的认知人工制品。在系统规模上，它们通过将重复的工作流发明转化为运行时控制下的选择、加载和组合来外化程序负担。

5 外化交互：协议

协议外化了智能行为的交互负担。一个纯粹的模型可能推断出应该调用工具、委托给子智能体或向用户展示响应，但如果没有显式契约，它还必须即兴创作消息格式、参数结构、生命周期语义、权限和恢复行为。这种负担将每个外部动作都变成了一个脆弱的提示跟随练习。

在工程框架内，协议层是交互变得可治理的地方。它调解工具如何被发现、子智能体如何被联系、面向用户的状态如何被暴露、会话进度如何被表示以及权限和失败如何被强制执行。因此，协议不是记忆存储，也不是技能描述：它指定了状态、请求和动作跨越系统边界移动的契约。因此，本节检查协议外化了什么交互负担、为什么这种外化很重要、当前协议全景如何组织、协议如何在工程框架内变得可操作，以及由此产生的转换如何通过认知人工制品的视角来理解。第 6 节确定了被外化的交互内容；第 5.1 节激发了好处；第 5.2 节调查了协议族；第 5.3 节检查了工程框架级集成；第 5.4 节以认知人工制品解释结束本章。

Refer to caption 图 6：协议作为外化的交互。上图： 智能体交互的进化轨迹——从具有有限模型间通信的孤立模型调用，到硬编码的 API 连接，到提供统一交互、任务分配、工具集成和安全访问的标准化协议，最终走向去中心化和网络化的智能体 Web。下图： 工程框架通过三个功能表面实现外化的交互管理：交互（与外部 API、工具和环境接口）、感知（对环境、上下文、记忆和反馈的感知）和协作（与其他 LLM、智能体和人类的协作）。

如果记忆外化时间状态，技能外化程序性专业知识，那么协议外化了治理智能体如何与自身之外的实体交换信息和动作的契约。表征转变是从自由形式的通信推理到结构化交换。协议不是要求模型在运行时发明交互的语法和语义，而是提供类型化表面、状态转换和机器可读约束，模型可以填充和遵循。从这个意义上说，协议不仅仅是加速通信；它们改变了任务——从协商临时接口到在显式契约内操作。

更具体地说，协议外化的内容可以沿四个维度组织：

调用语法。

每个工具调用、API 请求或委托消息都需要一个格式：参数名称、类型、排序和返回结构。没有协议，模型必须在每次调用时推断或重新发明这种语法。协议将其外化为模式和类型化接口，因此模型填充字段而不是猜测语法。

生命周期语义。

多步骤交互需要协调：谁下一个行动、允许什么状态转换、任务何时完成或失败。协议将这些排序规则外化为显式状态机或事件流，将它们从模型的推理负担中移除。

权限和信任边界。

现实世界的智能体动作受到谁被授权、什么数据可以在哪里流动以及必须产生什么证据的约束。协议将这些约束外化为运行时可以强制执行的检查规则，而不是依赖模型的自我约束。

发现元数据。

在智能体可以与工具或另一个智能体交互之前，它必须知道哪些能力可用以及如何到达它们。协议将这一发现问题外化为注册表、能力卡和模式端点，用可查询的元数据替代隐式提示嵌入知识。

这四个维度不是独立的——单个协议可能同时解决多个维度——但它们澄清了正在外化的范围。工具暴露操作；技能编码如何使用这些操作执行一类任务；协议指定交互语法、生命周期、权限和发现机制，通过这些机制操作和技能跨系统边界变得可执行。

5.1 为什么协议很重要

智能体协议的重要性直接来自于它们外化的负担：没有它们，每次交互都部分是一个关于格式、合法性和协调的推理问题。它们的好处最容易沿三个维度看到。

统一交互标准。

协议为工具、智能体和前端提供了发现、调用、交接和状态交换的共享语法。没有这一层，生态系统会分裂为在不同运行时之间不易迁移的本地提示加解析器集成（Yang et al., 2025a）。标准化交互使互操作性成为设计属性而不是幸运的事故（Ehtesham et al., 2025a）。它也是稳定多智能体协作的前提条件，因为委托和上下文转移在可以被自动化之前需要共同的表示。

改进的安全性、治理性和可审计性。

一旦智能体在真实环境中运行，问题就不仅是它们是否能行动，而是这些动作是否保持有界、可检查和可恢复（Phiri, 2025）。协议通过使权限、身份、执行轨迹、失败状态和责任边界变得显式来提供帮助。这将以前隐式的粘合逻辑转变为运行时可以验证和操作员可以审计的东西。

减少供应商依赖性。

开放的交互契约还保留了架构灵活性。如果系统在协议层而不是在特定于提供者的接口中积累能力，那么模型、供应商和运行时组件可以在更少重新布线的情况下被交换。因此，协议不仅仅是工程便利；它们是智能体生态系统在一段时间内保持可移植性和可进化性的机制的一部分（Yang et al., 2025a）。

5.2 智能体协议调查

在本节中，我们根据它们设计交互的不同实体，将社区中流行的智能体协议分类为智能体-工具、智能体-智能体、智能体-用户和其他协议族，并简要介绍每个类别中几个具有代表性和常用的协议。本次调查的目的不是编目每一个新兴标准，而是表明当代协议外化了交互负担的不同切片：一些稳定工具调用，一些稳定智能体之间的委托，一些稳定智能体-用户边界，一些治理高风险垂直工作流。

5.2.1 智能体-工具协议

智能体-工具协议是最早成熟的协议族之一，因为工具访问是接口碎片化首先出现的地方。MCP（Anthropic, 2024）是最清晰的代表。它提供了一种标准化的方式，使智能体能够发现工具、检查它们的模式并跨异构服务调用它们。它解决的问题很直接：没有共享契约，每个新工具都需要定制的集成逻辑、重复的模式定义和特定于提供者的适配。

与邻近层的边界很重要。MCP 和相关协议指定了工具如何被描述和调用；它们没有指定应该用这些工具遵循什么多步骤程序，它们也不会在结果产生后自行保留跨会话认知。这些角色分别属于技能和记忆。

从架构上讲，MCP 将工具访问转变为基于协议的集成而不是逐个接口的工程。服务器通过公共结构暴露工具和上下文资源，通常通过 JSON-RPC 2.0，而客户端根据该共享规范执行发现和调用。这将工具生态系统与模型提供者特定的函数调用格式解耦，并降低了添加新能力的成本。实际收益很直接：动态能力发现、对复杂外部系统的标准化访问、结构化请求/响应交换和模块化可扩展性。

同样的分离也改善了治理。因为调用是通过协议层调解而不是作为无约束的模型生成调用发出的，所以敏感数据处理、权限检查和审计边界可以被更明确地管理。ToolUniverse 和相关系统通过更专门的工具模式和交互约定扩展了这一逻辑（Gao et al., 2025b, a）。广泛的意义在于，智能体-工具协议外化了调用语法，使工具使用变得可移植、可检查和可扩展，而不是定制适配器的积累。

5.2.2 智能体-智能体协议

一旦多个智能体协作，交互本身就变成了一个系统问题。智能体-智能体协议定义了能力如何被发现、任务如何被委托、进度和部分状态如何被交换以及结果如何返回给调用者。它们外化了本来会被埋在提示约定或框架特定粘合中的协调。

A2A（Google, 2025a）是目前最明显的例子。它通过智能体卡等制品标准化能力发现，并支持异构智能体之间的面向任务的通信、状态更新、协商和流式进度。它的重要性不仅在于智能体可以相互发消息，还在于委托变得结构化：调用者可以发现另一个智能体提供什么、在已知契约下移交工作并在不依赖硬编码假设的情况下跟踪执行。

其他协议做出不同的权衡。ACP（IBM Research, 2025）通过熟悉的 REST/HTTP 模式强调轻量级采用，适用于与现有服务兼容比丰富协商更重要的设置。ANP（Chang et al., 2025）朝着相反方向推进，旨在实现开放的互联网级互操作性，具有去中心化身份、跨域发现和安全的端到端通信。

综上所述，这些协议表明多智能体系统需要的不仅仅是消息传输。它们需要委托、身份、状态和交接的标准化语义。这就是使协调从本地编排扩展到开放智能体生态系统的原因（Yang et al., 2025a; Ehtesham et al., 2025b）。

5.2.3 智能体-用户协议

智能体-用户协议正式化了智能体运行时与面向用户的系统之间的边界。它们解决了与工具或智能体-智能体协议不同的问题：不是动作如何在其他地方执行，而是执行状态、输出和接口结构如何以前端可以渲染和用户可以理解的形式暴露给人类（Google, 2025b; CopilotKit, 2025）。

A2UI（Google, 2025b）代表了接口生成分支。它让智能体以受限的声明格式描述 UI 结构，宿主应用程序可以跨平台安全地渲染。协议之所以重要，是因为它将接口构建本身视为受治理的输出而不是任意的类 HTML 文本。

AG-UI（CopilotKit, 2025）代表了流式状态分支。它标准化了类型化执行事件，如运行开始、文本发射、工具调用参数、工具调用结果、完成和错误。前端可以订阅该事件流并渲染运行时状态，而无需学习每个框架的私有事件格式。

这两个方向是互补的。A2UI 外化接口组合；AG-UI 外化该接口背后的实时状态转换。它们共同展示了协议化如何使人-智能体交互更具可观察性、可复用性和跨宿主可移植性。

5.2.4 其他协议

除了通用交互族之外，一些协议针对通用接口不够的高风险垂直工作流。UCP（Google, 2026）为智能体商务做了这一点，通过标准化目录、请求和结账流程，使智能体、商家和支付提供商可以在不需要为每个商店定制集成的情况下互操作。AP2（Google Cloud, 2025b）为支付做了同样的事情，强调授权、签名、可审计性和带有证据的交易对象，如 IntentMandate、PaymentMandate 和 PaymentReceipt。

这些领域协议之所以重要，是因为它们外化了特定于工作流的治理，而不仅仅是通用通信。在购物、支付、身份或合规等垂直设置中，协议必须编码谁被授权、必须产生什么证据以及如何在整个流程中跟踪责任（UCP Documentation, 2026）。在所有族中，共同的模式是协议使协调问题变得显式。工具协议外化调用语法，智能体-智能体协议外化委托，智能体-用户协议外化表示和状态流式传输，领域协议外化专门的治理。

5.3 工程框架中的智能体协议

如果上述调查展示了生态系统中哪些交互负担正在被外化，工程框架则展示了这些协议表面如何成为运行中的智能体的一部分。问题不再仅仅是智能体应该如何与其他实体通信，而是这些通信契约如何在智能体嵌入运行时后治理执行、持久性、委托和恢复。

传统的 LLM 管道依赖模型来推断格式、记住最近的交互状态并猜测外部动作应该如何形成。这对于短暂的松散耦合请求可能足够了，但当工作跨越多个步骤、工具、智能体或审批边界时就会崩溃。工程框架将这种负担外化为协议表面。模型输出被捕获为结构化意图，针对权限和生命周期状态进行验证，通过类型化接口路由，并作为受治理的事件而不是自由形式的猜测反射回运行时。

5.3.1 意图捕获与标准化

意图捕获和标准化是这些表面中的第一个。该层的工作是将模型生成的语言翻译为运行时可以验证和行动的显式命令或事件。没有它，执行语义保持隐式：系统猜测模型的意思，小的语言变化可能产生大的操作差异。

因此，成熟的工程框架在执行之前标准化意图。自由文本提议被映射为协议对象，针对当前上下文和权限边界进行检查，并在不满足契约时被拒绝或修改。这并没有消除模型判断；它将交互的脆弱部分从潜在推理转移到可检查的接口。结果是长期执行中更高的可靠性、更强的治理以及跨工具、智能体和用户的更清晰的交接。

5.3.2 能力发现与工具描述

能力发现和工具描述形成了第二个表面。在较旧的系统中，可用工具的知识通常部分存在于提示中，部分存在于开发者假设中。协议化发现用显式元数据替代了这一点。在会话开始或阶段转换时，运行时通过标准化消息暴露当前可用的工具、它们的模式和它们的输入/输出结构。

这种转变有两个效果。它减少了上下文膨胀，因为模型不需要在提示中携带每个工具契约；它使能力边界可治理，因为权限、版本控制和审计可以针对结构化元数据强制执行，而不是从模型行为中推断。换句话说，智能体停止猜测可以调用什么，开始读取声明的能力表面。

5.3.3 会话与生命周期管理

工程框架协议还需要显式的会话和生命周期管理，因为长期智能体不是作为孤立的单次调用运行的（Chai et al., 2025）。运行时必须在多个回合、上下文窗口和执行阶段之间保留交互状态。这里保留的不是完整意义上的持久记忆，而是协议状态：标识符、角色、待处理动作、阶段转换和允许的下一步行动。

因此，大多数长期系统将执行视为具有命名状态和转换规则的生命周期对象。协议层推进该对象、发出状态更改并协调检查点或恢复事件。当输出或检查点被写入持久存储时，它们就变成了记忆。这种区别很重要：协议维护交互的连续性；记忆维护跨时间的连续性。

5.4 协议作为认知人工制品

前面的部分调查了智能体协议的内容、全景和工程框架集成。这最后一节解释协议外化作为表征转换所取得的成就，使用与前面章节应用于记忆和技能的相同认知人工制品框架。

用 Norman 的话说，认知人工制品通过改变任务的表征结构来转换任务（Norman, 1993）。协议对交互就是这样做的。没有它们，每个外部动作部分都是一个自然语言推理问题：模型必须推断预期的操作、猜测正确的格式、重建可接受的约束，并希望接收系统正确解释结果。协议用有界的、结构化的任务替代了这种开放式推理：填充类型化字段、遵循声明的状态转换并接收结构化反馈。模型仍然需要关于是否和何时行动的判断，但它不再需要在每个步骤上重新发明交互的语法和语义。

这是智能体系统中最强大的外化形式之一，因为它从关键路径中移除了整个类别的推理。这种转换类似于记忆为时间状态引入的转换（第 3.4 节）和技能为程序性专业知识引入的转换（第 4.7 节），但它在不同的维度上运行：不是记住什么或如何进行，而是如何通信和协调。标准化协议减少了必须在模型内部做出的决策数量。它们使正确的交互更容易、错误的交互更难——这正是 Norman 的框架在外部表示与任务良好匹配时所预测的。

Kirsh 对互补策略的论述提供了额外的清晰性（Kirsh, 1995）。LLM 在解释意图、在选项之间选择和适应上下文方面很强，但在不同接口要求下一致地产生格式良好的结构化输出方面不可靠。协议实现了互补的分工：模型贡献判断和意图，而协议表面贡献格式、验证和生命周期控制。任何一方单独都不够；在一起，它们产生了既灵活又有纪律的交互。

这一解释还解释了为什么协议发挥着不能简化为记忆或技能的独特角色。记忆外化了随着时间的推移学到的东西；技能外化了任务应该如何被执行；协议外化了记忆和技能作为受治理的动作进入世界的纪律。记忆需要受治理的读/写路径；技能需要可绑定的接口；两者都依赖协议以可检查、可审计和可恢复的形式跨越系统边界。因此，协议不是围绕”真正”智能核心的次要管道。它们是用于交互的认知人工制品——使其他形式的外化智能可操作的表征基础设施。

9 结论

本文论证了外化是连接 LLM 智能体中许多最重要发展的过渡逻辑。可靠的智能行为越来越多地依赖于将选定的认知负担从模型转移到显式基础设施中：记忆跨时间外化状态，技能外化程序性专业知识，协议外化交互结构，工程框架将这些层协调为工作的运行时。

从这个角度来看，从权重到上下文再到工程框架的转变不仅仅是一系列工程技巧。它标志着智能体能力被组织的地方的转变。一些负担仍然在参数化方面得到很好的处理，但其他负担一旦在模型之外变得持久、可检查、可复用和可治理，就会变得更加可靠。

统一这些外化形式的是表征转换。记忆将回忆变为检索，技能将即兴生成变为引导组合，协议将临时协调变为结构化交换。其效果不仅仅是围绕模型添加更多组件，而是改变模型被要求解决的任务。

这种重新框架也阐明了前方的议程。关键问题不再仅仅是如何构建更强大的模型，而是如何在模型和基础设施之间划分能力、如何评估外化系统的贡献以及如何治理智能体越来越多地依赖的共享制品。

更广泛的含义是，智能体的进步将来自模型与外部基础设施的协同进化，而不是其中任何一方的孤立发展。从这个观点来看，更好的智能体不仅仅是更好的推理者。它们是组织得更好的认知系统。

Refer to caption

原文链接: https://arxiv.org/html/2604.08224v1