InfoQ 2025 AI Coding年终盘点:Spec蚕食人类编码,Agent造轮子拖垮效率
2025 年的 AI Coding 生态,正在为 2026 年的程序员定义一个新角色。答案可能藏在一堆冒烟的 Markdown 文件里。
这半年,Spec 驱动开发火到爆炸。仓库里迅速堆起一层层面向 Agent 的”Markdown 脚手架”,它被捧为 AI Coding 的最前沿解法:用一份契约,逼 Agent 真的干活。
但问题来了:这套契约,真能接住软件工程几十年的复杂度吗?还是说,程序员的终极价值,将从”写代码”转向”定义规则”——用 AI 听得懂的自然语言,驯服这场技术革命?
补全的天花板,与 Agent 的必然上位
Section titled “补全的天花板,与 Agent 的必然上位”AI Coding 的演进,已经清晰地分为了两个时代。
第一波由 Copilot 与 Cursor 开创:这是一种以人为主导的编程方式,AI 的角色是预测”下一个字符”或”下一个编辑位置”,在局部范围内提高速度和流畅度。
这种范式的边界其实非常清楚。补全必须足够丝滑,才能不打断心流,这意味着端到端时延被严格压在几百毫秒量级,可用模型规模和上下文长度都受到天然约束。
第二波,Agent 的崛起:它不再局限于”下一个字符”的预测,而是直接接管任务——从需求分析到代码生成,从工具调用到结果验证。
TRAE 核心开发者天猪指出,这并不意味着补全范式已经触及技术天花板:一方面,仍有大量开发者享受”亲自写代码”的过程;更重要的是,在 Agent 体系中,补全同样可以被复用来辅助 AI 自身的执行。
几乎所有头部编程工具都开始演化出三种形态并行的能力组合:IDE、CLI、Cloud。
- Claude Code 起源自 CLI,在 CLI 上可能更强
- OpenAI Codex 起源于 Cloud
- Cursor 起源于 IDE,是 IDE 领域最大的玩家之一
天猪判断 IDE 依然会是最多人使用的入口,原因很简单:它最符合程序员长期形成的工作习惯。IDE 的形态本身很可能在三年内发生根本变化,不再以 Editor 为中心展开。
用更直白的话说:IDE 正在从”给人用的工具箱”,变成”给 AI 和人一起共用的工具箱”。
Spec,真的能解决 AI Coding 的问题吗?
Section titled “Spec,真的能解决 AI Coding 的问题吗?”从这个词被喊热到现在,不过短短几个月,一个有些尴尬、却无法回避的现实逐渐浮出水面:大家口中的”Spec”,早就不是同一个东西了。
很多团队在实践中有一个直观感受是 AI 写代码时并不是缺 Spec,而是缺 Context。于是就有人干脆把两者画上了等号:“Spec 就是上下文工程”。
但国内一线工具团队更偏向认为”它们不是一回事儿”。在他们看来:
- Spec更像是上下文中最关键、也最稳定的一类内容,承担的是”指导性 Context”的角色:把目标、约束和验收口径讲清楚,相当于给 Agent 一份可执行的契约
- Context Engineering关注的是”在这一刻,模型是否拿到了足够的信息”
Spec 解决的是”我们到底要造什么”,而 Context Engineering 关注的是”在这一刻,模型是否拿到了足够的信息”。两者高度耦合,却无法相互替代。
Spec 是被”淘汰”的瀑布流程的回归?
Section titled “Spec 是被”淘汰”的瀑布流程的回归?”一位敏捷实践者曾直言,SDD 的前进方向本身就是错的。在他看来,这套方法试图解决的,是一个早已证明走不通的问题:如何将开发人员从软件开发过程中剔除?
问题在于,软件开发是一个非确定性过程,规划无法消除不确定性,正如经典论文《没有银弹》所指出的那样。
从工程视角讨论 Spec,常见的落点并不是”要不要把思考写全”,而是”到底该结构化哪一部分”。在 CodeBuddy 产品负责人黄广民看来,Spec Coding 真正想结构化的并不是开发者的全部思考过程,而是那些最容易在长程任务里出错、也最值得被验证和沉淀的部分。
当前行业对 Spec 还处于探索阶段。Spec 更合理的形态是”活的契约”——它不是一份静态的、一次性的文档,而是 Plan-Execute 闭环中的关键中间态:
好的 Spec 驱动实践不是”先写一份完美 Spec 再开始写代码”,而是用 Spec 把正确性口径说清楚,然后在推理-执行-反馈的过程中不断校准 Spec 和代码制品的一致性。
软件抽象:为什么 Agent 总爱”自己造轮子”
Section titled “软件抽象:为什么 Agent 总爱”自己造轮子””在 AI Coding 的实践中,有一个长期以来被大量开发者反复吐槽的问题:Coding Agent 极其偏好”自己从零开始实现功能”,而不是复用成熟库。
不过对模型来说,“自己写一个能跑的版本”往往是风险最低的路径。当它对某个库的版本、用法或边界不确定时,回退到”自己实现”几乎是必然选择。
关键不在于反复对 Agent 进行人工纠偏或微观干预,而在于补齐它可依赖的信息源。正如黄广民所强调的:与其在结果阶段不断”提醒”,不如在执行阶段把信息准备好——通过 Context7 这类 MCP 工具补齐版本、用法与示例,再用”渐进式披露”把正确用法注入任务上下文。
Token 工程的崛起:为什么成本突然失控
Section titled “Token 工程的崛起:为什么成本突然失控”Token 是什么时候开始变得扎心的?不是在你第一次用完免费额度,而是在你意识到:它已经不再是”一次对话的消耗”,而是能直接左右工具定价、产品策略,甚至逼平台改规则的核心变量。
今年有两件事几乎同时把这件事推到了台前:
- Cursor 连续五轮涨价与功能削减:有人在相对便宜的订阅档里,用特定方式跑出远超平台预期的调用量,成本边界被薅穿
- Claude Code 的 Token 排行榜:全球榜一大哥用 200 美元套餐在 30 天里烧掉 77 亿 Token,折算账单约 5 万美金
为什么 Token 在 2025 年突然复杂了一个数量级?
Section titled “为什么 Token 在 2025 年突然复杂了一个数量级?”根本原因并不在”模型更贵”,而在范式迁移:大模型应用正在从”问答”,跃迁到”Agent 做事”。当模型被要求”把一件事做完”,Token 成本就不再是单次输入输出,而是贯穿推理—执行—反馈链路的全生命周期成本。
最关键的变化是:工具调用的隐形成本开始吃掉大头。
为了完成一个任务,往往需要多轮对话;而每一轮对话背后又会经历几次到几百次不等的工具调用。这意味着上下文里存在大量可复用的稳定信息,也就留下了上下文缓存与重用的空间。
这也是为什么工程团队今年会特别关注 log 过滤、diff slicing、输出摘要等能力,本质上都是在控制”给模型看的 Token”,把无效信息从上下文里剔掉。
Token 工程的真正战场:上下文管理
Section titled “Token 工程的真正战场:上下文管理”在大多数模型平台里,上下文的执行依赖 KV cache。理论上,只要上下文没有变化,模型就可以直接命中缓存,避免重复计算;但在真实工程中,缓存命中远没有想象中理想。
上下文工程的技术演进:
- 早期 Fine-Tuning:通过在大模型层面注入领域知识,补充其世界模型的盲区。但成本高昂、灵活性不足
- RAG 外挂式知识补充:在 AI Coding 早期阶段,交互主要是一问一答的 Chat 模式,需要在提问时尽可能一次性注入相关背景
- Embedding Search + Grep:随着 Coding Agent 的出现,协作模式从单轮对话转向多轮、长期的 Agent Loop。相关信息不再需要在第一轮全部给出,而是由 Agent 在执行过程中按需检索与召回
- Agentic Search:随着任务复杂度和检索路径的增加,专门的 Search Agent 出现,负责多轮检索、筛选与验证
走到这一步,行业逐渐意识到:真正稀缺的不是上下文长度,而是有效 Context 的组织能力。
如果把 AI 编程看成一个系统工程,它至少由四层共同构成:
- 模型负责”思考”
- Tool负责”行动”
- IDE承载人机交互
- 上下文负责”记忆与连续性”
模型层决定上限;Tool 决定它能不能真的做事;IDE 决定人是否能高效表达意图、及时纠偏;而上下文层把这一切粘合在一起,承载历史决策、工程约束与连续性,是长期可靠性的基础。
未来 AI 编程的真正分水岭,或许并不仅仅在于”谁的模型更强”,而还在于谁能持续、准确地把工程世界中那些原本隐性的约束、记忆和共识,转化为模型可理解、可执行、并可被反复验证的上下文结构。