从推理式思考到代理式思考

Author: Junyang Lin (@JustinLin610)
URL: https://x.com/JustinLin610/status/2037116325210829168
Published: 下午 6:35 · 2026 年 3 月 26 日
Views: 76.2 万 | Replies: 85 | Reposts: 705 | Likes: 2,894 | Bookmarks: 2,918

过去两年重塑了我们对模型的评估方式和期望。OpenAI 的 o1 表明”思考”（Reasoning）可以成为一级能力，这是可以通过训练获得并向用户展示的能力。DeepSeek-R1 证明了推理风格的后训练（Post-training）可以在原始实验室之外复现和扩展。OpenAI 将 o1 描述为通过强化学习（Reinforcement Learning）训练来”在回答前思考”的模型。DeepSeek 将 R1 定位为与 o1 竞争的开放推理模型。

那个阶段很重要。但 2025 年上半年主要关注的是推理思考（Reasoning Thinking）：如何让模型花费更多的推理时计算（Inference-time Compute），如何用更强的奖励来训练它们，如何展示或控制这种额外的推理努力。现在的问题是接下来会发生什么。我相信答案是代理思考（Agentic Thinking）：为了行动而思考，在与环境交互的过程中，并根据来自世界的反馈持续更新计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会我们，如果想在语言模型中扩展强化学习，我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑和其他可验证领域变得至关重要，因为这些环境中的奖励比通用的偏好监督要强得多。它们让强化学习能够优化正确性而非似是而非。基础设施变得至关重要。

一旦模型被训练为通过更长的轨迹进行推理，强化学习就不再是监督微调（Supervised Fine-tuning）的轻量级附加组件。它变成了一个系统工程问题。你需要大规模的 rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是模型故事，也是基础设施故事。OpenAI 将 o1 描述为用强化学习训练的推理路线，DeepSeek R1 后来通过展示基于推理的强化学习需要多少专用算法和基础设施工作来强化这一方向。第一个重大转变：从扩展预训练到扩展推理的后训练。

2. 真正的问题从来不只是”合并思考和指令”

2025 年初，我们 Qwen 团队的许多人心中有一个雄心勃勃的愿景。理想的系统将统一思考（Thinking）和指令（Instruct）模式。它将支持可调节的推理努力，类似于低/中/高推理设置的精神。更好的是，它将自动从提示和上下文中推断出适当的推理量，这样模型就可以决定何时立即回答，何时思考更长时间，何时在真正困难的问题上花费更多的计算。

从概念上讲，这是正确的方向。Qwen3 是最清晰的公开尝试之一。它引入了”混合思考模式”，在一个家族中支持思考和无非思考行为，强调可控的思考预算，并描述了一个明确包含”思考模式融合”的四阶段后训练流程，这是在长链式思维（Long-CoT）冷启动和推理强化学习之后进行的。

但合并的描述比执行要容易得多。困难的部分在于数据。当人们谈论合并思考和指令时，他们首先想到的是模型侧的兼容性：一个检查点（Checkpoint）能否支持两种模式，一个聊天模板能否在它们之间切换，一个服务栈能否暴露正确的切换开关。更深层的问题是，两种模式的数据分布和行为目标存在显著差异。

在尝试平衡模型合并与提高后训练数据质量和多样性时，我们并没有把所有事情都做对。在那个修订过程中，我们也密切关注用户如何实际参与思考和指令模式。一个强大的指令模型通常因直接性、简洁性、格式合规性、在重复性高容量企业任务（如重写、标记、模板化支持、结构化提取和运营问答）上的低延迟而获得奖励。一个强大的思考模型因在困难问题上花费更多 token、保持连贯的中间结构、探索替代路径、保留足够的内部计算以有意义地提高最终正确性而获得奖励。

这两种行为特征相互拉扯。如果合并的数据没有精心策划，结果通常在两个方向上都平庸：“思考”行为变得嘈杂、臃肿或不够果断，而”指令”行为变得不够清晰、不够可靠，比商业用户实际想要的更昂贵。

在实践中，分离仍然具有吸引力。2025 年晚些时候，在 Qwen3 的初始混合框架之后，2507 系列发布了不同的 Instruct 和 Thinking 更新，包括独立的 30B 和 235B 变体。在商业部署中，大量客户仍然希望为批量操作获得高吞吐量、低成本、高度可控制的指令行为。在这些场景中，合并不是明显的好处。分离产品线使团队能够更清晰地专注于解决每种模式的数据和训练问题。

其他实验室选择了相反的路线。Anthropic 公开主张集成模型理念：Claude 3.7 Sonnet 被引入为混合推理模型，用户可以选择普通响应或扩展思考，API 用户可以设置思考预算。Anthropic 明确表示他们认为推理应该是一种集成能力，而不是一个单独的模型。GLM-4.5 也公开将自己定位为混合推理模型，具有思考和无非思考两种模式，统一了推理、编码和代理能力；DeepSeek 后来也朝类似方向移动，V3.1 采用了”思考与非思考”混合推理（Hybrid Inference）。

关键问题是合并是否有机的。如果思考和指令仅仅共存于一个检查点内，但行为仍然像两个笨拙缝合的人格，产品体验仍然不自然。真正成功的合并需要平滑的推理努力谱系。模型应该能够表达多个努力级别，理想情况下能够自适应地在它们之间选择。GPT 风格的努力控制指向这一点：对计算的策略，而非二元开关。

3. 为什么 Anthropic 的方向是有用的纠正

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开框架是克制的。他们强调集成推理、用户控制的思考预算、现实世界任务、编码质量，以及后来在扩展思考期间使用工具的能力。Claude 3.7 被呈现为具有可控预算的混合推理模型；Claude 4 通过允许推理与工具使用交错来扩展这一点，同时 Anthropic 强调编码、长时间运行的任务和代理工作流作为主要目标。

生成更长的推理轨迹并不会自动使模型更智能。在许多情况下，过度的可见推理信号表明分配薄弱。如果模型试图以同样的冗长方式推理一切，它可能未能优先考虑，未能压缩，或未能行动。Anthropic 的轨迹表明了一种更纪律化的观点：思考应该由目标工作负载塑造。如果目标是编码，那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是代理工作流，那么思考应该提高长时间范围内的执行质量，而不是产生令人印象深刻的中间散文。

这种对针对性效用的强调指向了更大的东西：我们正从训练模型的时代过渡到训练代理的时代。我们在 Qwen3 博客中明确阐述了这一点，写道”我们正从专注于训练模型的时代过渡到以训练代理为中心的时代”，并将未来的强化学习进展与长时间推理的环境反馈联系起来。代理是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修订策略并在长时间范围内持续的系统。它由与世界的闭环交互定义。

4. “代理思考”的真正含义

代理思考是一个不同的优化目标。推理思考通常由最终答案前的内部审议质量来判断：模型能否解决定理、写出证明、生成正确的代码或通过基准测试。代理思考是关于模型能否在与环境交互时持续取得进展。

核心问题从”模型能否思考足够长的时间？“转变为”模型能否以一种维持有效行动的方式思考？“代理思考必须处理几个纯推理模型大多可以避免的事情：

决定何时停止思考并采取行动
选择调用哪个工具以及以什么顺序
整合来自环境的嘈杂或部分观察
在失败后修订计划
在许多轮次和许多工具调用中保持连贯性

代理思考是通过行动进行推理的模型。

5. 为什么代理强化学习基础设施更难

一旦目标从解决基准测试问题转变为解决交互式任务，强化学习栈就会发生变化。用于经典推理强化学习的基础设施已经不够了。在推理强化学习中，你通常可以将 rollout 视为 mostly 自包含的轨迹，具有相对干净的评估器。在代理强化学习中，策略嵌入在更大的框架内：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。环境不再是静态验证器；它是训练系统的一部分。

这创建了一个新的系统要求：训练和推理必须更清晰地解耦。如果没有这种解耦，rollout 吞吐量会崩溃。考虑一个必须针对实时测试框架执行生成代码的编码代理：推理侧等待执行反馈而停滞，训练侧因完成的轨迹而饥饿，整个管道的运行远低于你从经典推理强化学习中期望的 GPU 利用率。添加工具延迟、部分可观察性和有状态环境会放大这些低效率。结果是实验在达到你目标的能力水平之前就变得缓慢而痛苦。

环境本身也成为一级研究产物。在监督微调时代，我们痴迷于数据多样性。在代理时代，我们应该痴迷于环境质量：稳定性、真实性、覆盖范围、难度、状态多样性、反馈丰富性、抗利用性和 rollout 生成的可扩展性。环境构建已经开始成为一个真正的初创类别，而不是副项目。如果代理被训练为在生产类似环境中操作，那么环境就是核心能力栈的一部分。

6. 下一个前沿是更易用的思考

我的期望是代理思考将成为主导的思考形式。我认为它最终可能取代大部分旧的静态独白版本的推理思考：过长、孤立的内部轨迹，试图通过发出越来越多的文本来补偿缺乏交互。即使在非常困难的数学或编码任务上，真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健且富有成效地解决问题。

训练此类系统的最困难挑战是奖励黑客（Reward Hacking）。一旦模型获得有意义的工具访问权限，奖励黑客就变得更加危险。具有搜索功能的模型可能会学会在强化学习期间直接查找答案。编码代理可能会利用仓库中的未来信息、滥用日志或发现使任务无效的快速方式。具有隐藏泄漏的环境可能使策略看起来超人，而实际上是在训练它作弊。这就是代理时代比推理时代更加微妙的地方。更好的工具使模型更有用，但也扩大了虚假优化的攻击面。我们应该预期下一个 serious 研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议以及策略与世界之间更原则化的接口。尽管如此，方向是明确的。工具赋能的思考（Tool-enabled Thinking）比孤立的思考更有用，并且有更好的机会提高实际生产力。

代理思考也将意味着框架工程（Harness Engineering）。核心智能将越来越多地来自多个代理的组织方式：一个规划和路由工作的编排器（Orchestrator），像领域专家一样行动的专业代理，以及执行较窄任务同时帮助控制上下文、避免污染和保持不同推理级别之间分离的子代理。未来是从训练模型到训练代理，再到训练系统的转变。

结论

推理波的第一阶段确立了一些重要的东西：当反馈信号可靠且基础设施能够支持时，语言模型上的强化学习可以产生质量上更强的认知。

更深层的转变是从推理思考到代理思考：从思考更长时间到为了行动而思考。训练的核心对象已经转移。它是模型加环境系统，或更具体地说，代理及其周围的框架。这改变了最重要的研究产物：模型架构和训练数据，是的，还有环境设计、rollout 基础设施、评估器鲁棒性，以及多个代理协调的接口。它改变了”良好思考”的含义：在现实世界约束下维持行动最有用的轨迹，而不是最长或最可见的轨迹。

它也改变了竞争优势将来自哪里。在推理时代，优势来自更好的强化学习算法、更强的反馈信号和更具可扩展性的训练管道。在代理时代，优势将来自更好的环境、更紧密的训练 - 服务集成、更强的框架工程，以及关闭模型决策与这些决策产生的后果之间循环的能力。