3年、1万人，快手技术团队首次系统披露AI研发范式升级历程

编者按

以 ChatGPT 问世的 2022 年为起点，大模型技术进入公众视野已经超过三年。人们普遍见证了 AI 作为新型生产工具对生产力的重塑，但对科技企业而言，这远不止是多了新技术或新产品那么简单。

作为前沿技术的掌握者与实践者，科技公司必须率先完成自身的转型：以极快的速度，不惜试错和阵痛，找到大规模、稳定、高效使用 AI 的组织路径。过去十年，“数智化”浪潮主要聚焦于传统企业如何借助外部工具实现数字化；而如今，AI 正在倒逼科技公司自身成为变革对象。它们必须在人才结构、工具体系、协作流程乃至组织文化上同步革新，否则将难以在 AI 时代维持竞争力。

正是在此背景下，快手首次系统性披露其自 2023 年以来的 AI 研发范式升级历程。

今天，快手发布了名为《快手万人组织 AI 研发范式跃迁之路：从平台化、数字化、精益化到智能化》的 1.6 万字长文。文章由快手研发效能委员会审稿、经内部深度复盘整理，罕见地呈现了一家超大型科技企业在 AI 时代推进组织级提效的完整图景。

你会在这篇文章中看到快手研发范式的三阶段演进路径，以及快手技术团队对 AI 赋能组织提效的思考：

三阶段演进路径：
- **平台化、数字化、精益化（2023-2024 年）：**建设一站式研发平台，并标准化需求和工程流程，工具渗透率>95%，流程自动化>94%；通过建立效能模型，识别交付瓶颈，提升需求交付效率，人均需求吞吐量提升 41.57%
- **智能化 1.0（2024 年 6 月-2025 年 6 月）：**聚焦用 AI 提升个人开发效率，建设并推广 AI 编码 / 测试 /CR 等能力，AI 代码生成率超过 30%；但发现矛盾——个人主观编码效率提升显著，但组织需求交付效率却基本不变
- **智能化 2.0（2025 年 7 月以后）：**聚焦用 AI 提升组织整体效能，找到了 AI 研发范式升级路线：L1 AI 辅助（Copilot）→ L2 AI 协同（Agent）→ L3 AI 自主（Agentic），探索出了支撑路线达成的系统性实践：AI x 效能实践、AI x 研发平台、AI x 效能度量
关键洞察与经验：
- AI 研发提效陷阱：用 AI 开发工具 ≠ 个人提效 ≠ 组织提效
- 本质问题：如何将个人提效传导到组织提效

在全球范围内，如此系统、坦诚且具备工程细节的 AI 提效实践总结仍非常稀缺。对于所有正在探索 AI 落地路径的企业而言，这份来自一线的复盘值得细读。

这也预示着一个新的节点正在到来。当像快手这样的头部公司开始对外输出其 AI 落地的方法论与效能成果，整个行业将面临一种隐形的压力——组织能否高效驾驭 AI，将成为其在 AI 时代竞争力的重要衡量方式。

可以预见，2026 年将成为一批先行者集中展示阶段性成果的窗口期。这些成果首先会以研发效率、工程体系和组织方法论的形式呈现；再过几年，更会传导到公司的财务表现与人才吸引力上。

到那时，所有公司都将不得不回答同一个问题：AI 时代，我们如何重构自己？

AI 研发提效陷阱：用 AI 开发工具 ≠ 个人提效 ≠ 组织提效

早在 2024 年，快手就建设了 AI 编程工具 Kwaipilot，并发布给公司内 10000+ 研发人员使用。经过持续的深度优化和推广，快手整体的 AI 代码生成率，在严格度量口径下（AI 生成并入库的代码行 / 新增代码行）从 1% 达到了 30%+，甚至部分业务线达到了 40%+。同时，在非编码环节，也衍生出了很多 AI 提效工具，比如智能 CR（CodeReview）、智能测试用例生成、智能单元测试等等，但经过大量的调研和数据分析，我们发现了这个不等式：

“用 AI 开发工具 ≠ 个人提效 ≠ 组织提效”

如果以企业的研发效能提升为目标，我们发现：

对研发工程师而言： 深度使用 AI 开发工具，代码生成率很高，个人主观体感上编码效率提升了 20-40%，但并不代表真正的”个人提效”，因为在现实中，大部分工程师并没有接纳更多的需求，个人需求的交付数没有显著提升。
对大型组织而言： 我们发现部分 AI 用的好的工程师，确实可以更快更多的完成开发任务，但组织整体的需求吞吐量没有明显提升，需求交付周期也没有明显缩短。

从《2025 年 DORA 报告：人工智能辅助软件开发现状调查报告》中能看到，这也是业界普遍存在的问题。如报告中所述，在对 AI 提效的结果的预估上，各企业普遍对个人效能的提升有信心，而对团队效能的提升预估非常小。

在快手，我们发现仅推广研发各阶段的 AI 提效工具，已经偏离了企业研发效能提升的核心目标，最终必然会导致 2 个问题：

投入很大，但企业整体的研发效率提升不明显： 虽然通过调研很容易能收到大量的个人效率提升反馈，但个人提效无法传导到组织提效。
效能平台开始割裂： 传统 DevOps 平台仍承担研发主流程，每天被高频的使用，却无法演进到下一代 AI 研发平台（顶多扩展一些单点的 AI 功能）。新生的 AI 编程工具，只取代了传统 IDE，又无法与老平台协同演进。

为了解决上述 2 个问题，我们从 2025 年开始进行了更激进的探索和变革，我们称之为”AI 研发范式升级”，最终，通过一系列的实践，找到了一条能借助 AI 能力平滑通往研发智能化的路径。

总览：快手研发效能演进路线

快手有 10000+ 研发、8+ 业务线，研发效能的演进可以分为 3 个大阶段：

阶段 1：平台化、数字化、精益化（2023-2024 年）： 通过建设三端一站式研发平台、需求流 & 工程流标准化，解决了研发交付流程散乱，既无标准也无数据的问题。再通过建立效能模型，识别交付瓶颈，提升需求交付效率。
阶段 2：智能化 1.0（2024 年 6 月-2025 年 6 月）： 在研发全流程中开始建设 AI 能力，包括 AI 编码、AI 单元测试、AI CR、AI 手工用例生成、AI OnCall 等等，并进行全员推广。经过 1 年多的实践，基本上完成了全员普及，在主观调研中，开发人员主观体感上效率提升 20-40%，在客观数据上，AI 代码生成率也在持续增长。但同时也发现了矛盾点：需求交付效率基本不变，即个人效率提升未能有效传导到组织效率提升。
阶段 3：智能化 2.0（2025 年 7 月+）： 从”推广 AI 工具，让开发者使用”回归到了更本质的元问题：如何用 AI 提升需求端到端交付效率？经过半年多的探索，终于找到了新的路径，并得到了充分的数据验证。我们称这套解决方案为”AI 研发范式”，主要解决了 3 个问题：
- AI x 效能实践： 如何用 AI 提升工程师的生产力，并将个人提效传导到组织提效。
- AI x 研发平台： 支撑需求交付全流程（从分析到编码再到发布）的研发工具链，如何整体演进到智能化？
- AI x 效能度量： 如何在效能度量指标的基础上，构建 AI 提效的指标体系，能清晰的量化过程和结果，为组织级的 AI 研发范式升级提供有效指引。

阶段 1：平台化、数字化、精益化（2023-2024 年）

这个阶段的解决方案，业界相关的分享已经非常多了，但从实际情况看，在千人规模的技术团队中，能做好、做深、做透的实践非常稀有。

主站技术部的实践依托一套公司级的研发效能基建，由横向团队「研发效能中心」提供，主要分为：

效能平台： 项目管理平台（Team）、三端一站式研发平台（KDev（服务端）、KFC（前端）、Keep（客户端））、琅琊阁（效能度量）、质量平台（KTest 等）
效能实施： 效能 BP 专家（Business Partner），负责深入各业务线，提供专业支持。

Step1：依托工具推广，实现流程标准化

解决的问题： 需求流和工程流均不标准，开发人员的工作分散在各处，日常开发体验差、学习成本高，又无法实施有效的质量防护措施，还不能沉淀准确的研发过程数据持续度量与改进。

达成的效果： 通过推广三端一站式研发平台，定义需求、研发的标准流程，将研发全流程标准化。

主要难点：

用一套产品设计尽量满足多样化的研发场景
服务端、客户端、前端研发场景多样化，研发流程和习惯散乱
研发流程规范差异大
用户迁移成本大
落地时间紧迫（1 个多月完成）

经验总结： 服务端、前端、客户端的底层模式、流程都有比较大的差异，强行整合反而增加了标准化的难度。因此在用户层面上还是三套平台，分别解决各自领域的问题，但在底层的基础能力用的是一套。

Step2：建设效能度量体系

快手定义了以”人均交付产品需求数”为北极星目标来看清业务开发交付能力，同时观测需求颗粒度来保障交付提升的良性发展，逐步建立了一套更全面的指标体系（多指标互相佐证约束，hack 成本极高）来体现业务交付产能和交付效率，以及组织和个人效率情况。

Step3：效能问题分析与改进

Case1：通过「研发活动在线化率」分析，深挖出架构不合理问题

通过数据发现某团队产品需求投入占比仅 59%，缺陷占比 14%（各团队最高），根因是客户端架构劣化导致模块耦合度高、边界不清晰。通过客户端架构升级和体验优化两个专项，产品需求投入占比提升到 64%。

Case2：通过「需求积压率」分析，驱动业务优化需求评审流程和节奏

某些团队需求积压率持续保持在 80% 以上，意味着需要近一个月才能消化积压需求。通过数据分析驱动优化需求评审流程。

结果： 人均交付产品需求数 24 年 7 月份同比增长超过 80%。

阶段 2：智能化 1.0（2024 年 6 月-2025 年 6 月）

从 2023 年 6 月开始，快手开始探索大模型在研效领域的应用，最重要的决策是自建 AI Coding 工具：Kwaipilot。

Step1：导入——推广工具，让开发人员用起来

鼓励开发人员在日常工作中默认使用 AI 编程工具，让大家在意识和行为上有一个转变。实际使用中出现了明显的两级分化的情况。

Step2：优化——推广实践，提升编码效率

通过用户数据和技术 Leader 推荐找到了一批”AI 开发高手”，重点收集他们的问题并提炼最佳实践。

发现在真实的业务需求开发场景里，想用好 AI 编程工具提升效率，有 2 个非常大的门槛：

AI 编程工具不”懂”业务和系统： “通用的工具只能达到通用的效果”，因为它们不理解公司内大量的业务概念、存量系统、编程规范等知识。
人和 AI 协同需要掌握新的开发方法： 相比传统编程方法，目前已经发展出了一套 AI 辅助编程的新方法。如果未掌握对应的技巧，不仅不能提效，还可能会降效。

Step3：固化——将 AI 编码能力变为组织机制

增量人员： 强化入职培训，从源头培养 AI-Native 开发者。
存量人员： 牵引 AI 在团队、研发流程、个人工作中渗透。
文化影响： 通过活动运营、奖励机制激发更多同学拥抱 AI。

结果： 80%+ 的开发人员都开始用 AI 辅助编码，AI 代码生成率每月线上增长。

快手使用了最严格的度量方法：

分母： 新增代码行，统计公司内所有最终入库的 Commit 中的代码行。
分子： 将分母的每一行代码和 AI 生成的代码进行比对，通过编辑距离精确计算。

问题与洞察

经过 1 年多的努力，发现了非常反直觉的情况：AI 代码生成率持续在增长，但需求交付效率基本不变。

在真实的业务需求开发中，已经存在着 3 种不同的开发方法：

AI 辅助编码： 在标准开发流程的基础上，在编码环节依托 AI 编码工具提升编码效率。如果熟练掌握，可以缩短一部分编码时间，但对整体的开发任务缩短帮助不大。
AI 辅助开发： 在研发全流程的各环节均使用 AI 辅助的方式提升整体开发效率。需要将需求拆分为多个开发任务，不同开发任务调用不同的 AI 能力来完成，再由人来审核和优化产出物。可以将研发任务的开发周期缩短 30% 左右。
AI 协同开发： 通过完全用自然语言和 AI 交互的方式完成需求交付，需求整体的开发周期可以缩短 40% 左右。

实际情况上，团队里只有不到 10% 的人在使用「AI 辅助开发」或「AI 协同开发」开发方法。

阶段 3：智能化 2.0（2025 年 7 月至今）

在智能化 1.0 阶段最大的收益是什么呢？大部分研发人员都开始主动使用 AI 开发工具了，同时找到了个人提效的最佳实践。但接下来才是深水区，需要回归效能提升的元问题：“如何用 AI 提升需求端到端交付效率？”

快手根据需求交付中 AI 的参与程度，定义了”需求 AI 研发成熟度”，将需求划分为 3 个等级：

等级	名称	描述
L1	AI 辅助（Copilot）	人主导，AI 主要在编码环节提供辅助
L2	AI 协同（Agent）	人和 AI 更深度的协同完成需求开发，在研发全过程中，更深度分解任务给 AI 完成，人进行修改、调整、确认
L3	AI 自主（Agentic）	人类似产品经理，把需求澄清清楚并交给 AI 来完成，并进行最后的验收

Step1：AI x 效能平台——建设智能研发平台

建设下一代智能研发平台，能支持多种研发模式：

标准开发 / AI 辅助编码： 工作流中所有节点完全由人工完成。用这种模式交付的需求，会被度量为 L0/L1 级需求。
AI 辅助开发 / AI 协同开发： 工作流中多个关键节点均有 AI 完成，人进行结果审查。用这种模式交付的需求，会被度量为 L2 级需求。
AI 自主开发： 部分需求可以实现全流程 AI 完成，人只需要在需求上线前或上线后进行审核。用这种模式交付的需求，会被度量为 L3 级需求。

Step2：AI x 效能实践——以需求为中心导入「AI 研发模式」

个人级实践： 导入「AI 辅助开发 / AI 协同开发」开发方法，并树立标杆。

团队级实践： 导入「AI 研发模式」，重塑流程、分工，提升所有需求的交付效率。

业务线级实践（主站技术部）：

实践 1：Top-Down，战略驱动 —— 提出”AI First”战略思想，发布白皮书，成立 AI DevOps 项目。
实践 2：AI x 效能实践 —— 将需求分级，让所有需求达到 L1 级，让大部分需求升级到 L2 级，小部分需求探索 L3 级。
实践 3：AI x 效能平台 —— 构建 AIDevOps 能力矩阵与建设路线图，建设 20+ AI 原子能力。
实践 4：AI x 效能度量 —— 建设 AI 研发成熟度模型，牵引各级实践落地。

Step3：AI x 效能度量——建设「AI 研发成熟度模型」

基于效能实践的探索，配套建立了「需求 AI 研发成熟度」模型，用于度量一个需求在研发过程中的 AI 使用程度。

结果： 最先完成 AI 范式转型的团队，L2&L3 级需求占比达到 20.34%，需求交付周期下降 58%，2 个指标呈现明显的正相关性。

总结

快手一年来的实践心得，完全印证了《2025 年 DORA 报告》中的洞察：

“从 DevOps 到 AI 辅助开发：AI 是’透视镜’与’放大器’”

AI 是”透视镜”——在协同良好的组织中，AI 能使 DevOps 效能再提升 25%；在架构松散的组织中，AI 会暴露流程断点、数据孤岛等隐性痛点。

AI 是”放大器”——AI 辅助开发也需重新设计工作流程、角色分工与治理机制，否则无法释放真正价值。

对于大型组织的研发效能提升，AI 不是”万能药”，而是”透视镜”和”放大器”，它不会自动修复组织问题，而是先把组织历史积累的长板和短板一并透视出来，再全部放大。

快手的 AI 研发范式升级仍在沿着这条路径演进中：L1 AI 辅助（Copilot）→ L2 AI 协同（Agent）→ L3 AI 自主（Agentic）。2026 年正在探索 L2 → L3 的跃迁路径。

本文作者：快手研发效能中心秦巍（研发效能解决方案 & 智能工具产品负责人）、快手主站技术部胡伟（主站 AIDevOps 项目负责人）、马坤（主站研发效能项目负责人）

首发来源：InfoQ 中国