Skip to content

实验室与现实:METR研究无法告诉你的AI生产力真相

AI生产力争论在7月出现了意外转折,当时METR发布了研究结果:AI编码助手使有经验的开发者在复杂任务上慢了19%。他们对16位资深开源贡献者的受控研究在开发者社区引发了激烈讨论——这是有充分理由的。他们的发现挑战了AI自动提升生产力的广泛假设。

METR的研究值得称赞,因为它为这个经常被轶事声称主导的领域带来了科学严谨性。他们的受控方法揭示了AI在需要深度系统知识和组织上下文的复杂、遗留代码库方面的局限性的重要真相。我们来自10,000+开发者的遥测数据证实了这种模式:我们看到AI采用始终偏向于新聘人员,他们使用这些工具来导航不熟悉的代码,而更有经验的工程师仍然持怀疑态度。

但对于做出AI投资决策的商业领导者来说,METR的研究只回答了部分问题。虽然理解个人任务表现(和对AI的感知)很有价值,但组织的关键问题不是AI是否帮助开发者更快完成孤立的任务。而是AI是否帮助企业更有效地向客户交付更好的软件。

缺失的上下文:真实组织如何实际工作

Section titled “缺失的上下文:真实组织如何实际工作”

METR的受控实验研究了来自大型开源仓库的16位有经验的开发者,主要使用Cursor Pro和Claude 3.5 Sonnet,在隔离环境中处理精心设计的任务。这种方法产生了干净、可比的数据,但它无法捕捉软件开发在组织中实际发生的方式。

企业软件交付涉及的远不止个人编码速度。代码必须被队友审查、通过测试管道、导航部署流程,并与数十位其他开发者的工作集成。开发者确实可能用AI更快地完成某些简单任务,但如果这在下游制造了瓶颈,组织就看不到好处。

我们的分析采取了根本不同的方法。我们分析了来自1,255个团队和多个公司超过10,000名开发者的遥测数据,跟踪AI采用如何影响自然环境中的真实工作。我们没有测量孤立的任务完成,而是检查了从初始编码到部署到生产的完整软件交付管道。我们的目标是确定广泛的AI采用是否与常见速度、质量、效率和开发者生产力指标的重大变化相关。

研究方面METR研究Faros AI研究
样本大小16位有经验的开发者10,000+开发者
环境受控实验室环境自然工作环境
时间段短期受控任务长达两年的纵向研究
焦点任务完成和AI感知工程结果指标

Faros AI研究的结果揭示了METR方法论无法捕捉的好处:AI正在使开发者能够更有效地处理更多并发工作流并交付显著更高的吞吐量。

我们的数据显示,高AI采用团队的开发者每天互动的任务多9%,拉取请求多47%。这不是传统的多任务处理(研究早已证明这是适得其反的)。相反,它反映了当AI Agent能够贡献工作负载时工作方式发生的根本转变。

借助AI编码助手,工程师可以在一个功能上启动工作,同时他们的AI Agent同时处理另一个。他们可以启动重构任务,将其交给AI进行初始实现,然后审查和迭代,同时AI处理待办事项中的下一个项目。开发者的角色从纯代码生产演变为跨多个并行流的编排和监督。

这种并行化解释了为什么我们还发现任务完成率高21%,合并的拉取请求多98%,即使个人任务速度可能没有显著改善。对于企业来说,这种区别非常重要。组织优化的不是开发者完成单个任务的速度;而是他们向客户交付多少有价值的软件。

研究结果METR研究Faros AI研究
关键发现复杂任务慢19%完成多21%任务,合并多98% PR
主要洞察AI在需要深度上下文的复杂遗留代码上挣扎AI实现并行化但制造下游瓶颈
商业影响未测量尽管团队有收益,但组织层面无相关性
主要结论AI使有经验的开发者在熟悉的复杂工作上更慢不能只分发AI许可证;你需要彻底改变周围的系统

值得注意的是,虽然我们发现了这种与吞吐量和多任务处理的相关性,但遥测数据并未表明AI采用与任务或PR速度(通过周期时间测量)之间存在相关性。

以下是我们的发现与METR的担忧一致的地方。两项研究都揭示了AI向软件交付引入了新的复杂性:

  • 复杂性挑战:AI生成的代码往往更冗长,增量更少,PR大小增加154%
  • 代码审查瓶颈:我们的数据显示审查时间长91%,无疑受到更大diff大小和更高吞吐量的影响
  • 质量问题:随着AI采用的增长,我们观察到每位开发者多9%的bug

这些发现呼应了METR的观察:AI可以制造与解决问题一样多的问题,特别是对于复杂工作。

我们的关键洞察:AI的影响完全取决于组织上下文。在METR的受控环境中,可以吸收AI好处的组织系统根本不存在。在真实公司中,这些系统决定了AI采用的成功或失败。

为什么实验室结果无法预测商业结果

Section titled “为什么实验室结果无法预测商业结果”

两种方法都提供了关于AI在哪里有帮助和哪里没有帮助的有价值数据。当你考虑每种方法测量的内容的根本差异时,任何脱节都不令人惊讶:

METR测量的:个人开发者在孤立的、定义明确的任务上的表现,没有下游依赖。

Faros AI测量的:跨相互依赖团队的端到端软件交付表现,具有真实的商业约束。

METR的环境:16位有经验的开发者,主要Cursor Pro与Claude 3.5/3.7 Sonnet,受控任务,没有组织系统。

Faros AI的环境:10,000+开发者跨所有经验级别,多种AI工具(GitHub Copilot、Cursor、Claude Code、Windsurf等),自然工作环境,完整组织上下文。

对于工程领导者,Faros AI研究表明AI正在释放更高的速度,但现有的工作流和结构正在阻止它。开发者不是在孤立中工作——他们在代码审查、测试、部署和跨团队协调的系统中工作。AI对个人生产力的任何影响只有在成功导航这些组织流程后才能转化为商业价值。

我们的定性实地调查和运营见解表明,实现有意义AI收益的公司正在重新设计工作流以利用AI的独特优势。这意味着:

  • 工作流重新设计:调整审查流程以有效处理更大的AI生成的拉取请求
  • 战略启用:提供特定角色的培训,而非假设开发者会自己搞明白
  • 基础设施现代化:升级测试和部署管道以处理更高的代码速度
  • 数据驱动优化:使用遥测数据识别AI在哪里提供最大的生产力增益并相应地聚焦采用
  • 跨职能对齐:确保AI采用在相互依赖的团队中均匀分布,以防止依赖消除收益

最重要的是,成功的组织将AI采用视为结构变革的催化剂。这种方法聚焦于AI如何重塑软件开发工作的组织,而非个人开发者的边际增益。

METR的结论:不要期望AI加快你最有经验的开发者在复杂工作上的速度。

Faros AI的结论:即使AI帮助个人团队,组织系统也必须改变来捕捉商业价值。

两种方法都有价值,但对于做出投资决策的工程领导者来说,现实世界的证据指向一个清晰的结论:AI的商业影响远比以前理解的更取决于组织准备度和战略AI部署。