Cloudflare内部AI工程栈:在我们自己的平台上构建
在过去30天里,Cloudflare 93%的研发组织使用了由我们在自己平台上构建的基础设施驱动的AI编码工具。
11个月前,我们进行了一项重大项目:真正将AI集成到我们的工程栈中。我们需要构建内部MCP服务器、访问层和AI工具,使Agent在Cloudflare内部有用。我们从全公司抽调工程师组成了一个名为iMARS(内部MCP Agent/服务器推广小队)的虎队。持续的工作最终落到了Dev Productivity团队,他们也拥有我们大部分内部工具,包括CI/CD、构建系统和自动化。
以下是一些数字,展示我们在过去30天的Agentic AI使用情况:
- 3,683名内部用户活跃使用AI编码工具(全公司60%,R&D 93%),总员工约6,100人
- 4795万AI请求
- 295个团队正在使用Agentic AI工具和编码助手
- 2018万AI Gateway每月请求
- 2413.7亿token通过AI Gateway路由
- 518.3亿token在Workers AI上处理
内部开发者速度的影响是清晰的:我们从未见过如此大幅度的季度合并请求增长。
随着AI工具采用的增长,4周滚动平均值已从约5,600/周上升到超过8,700。3月23日那一周达到10,952,几乎是Q4基准的两倍。
MCP服务器是起点,但团队很快意识到我们需要更进一步:重新思考标准如何被编码、代码如何被审查、工程师如何入职,以及变更如何在数千个仓库中传播。
工程师-facing工具层(OpenCode、Windsurf和其他MCP兼容客户端)包括开源和第三方编码助手工具。
每一层都映射到我们使用的Cloudflare产品或工具:
| 我们构建的 | 使用 |
|---|---|
| Zero Trust认证 | Cloudflare Access |
| 集中化LLM路由、成本跟踪、BYOK和零数据保留控制 | AI Gateway |
| 平台内推理与开放权重模型 | Workers AI |
| 带单一OAuth的MCP服务器门户 | Workers + Access |
| AI代码审查CI集成 | Workers + AI Gateway |
| Agent生成代码的沙盒执行(Code Mode) | Dynamic Workers |
| 有状态的长期Agent会话 | Agents SDK(McpAgent, Durable Objects) |
| 用于克隆、构建和测试的隔离环境 | Sandbox SDK |
| 持久的多步骤工作流 | Workflows |
| 16K+实体知识图谱 | Backstage(OSS) |
除了Backstage之外,以上列出的所有内容都是正在出货的产品,其中许多在Agents Week期间获得了重大更新。
我们将分三幕来介绍:
- 平台层——认证、路由和推理如何工作(AI Gateway、Workers AI、MCP门户、Code Mode)
- 知识层——Agent如何理解我们的系统(Backstage、AGENTS.md)
- 执行层——我们如何在大规模保持高质量(AI代码审查、Engineering Codex)
第一幕:平台层
Section titled “第一幕:平台层”AI Gateway如何帮助我们保持安全并改善开发者体验
Section titled “AI Gateway如何帮助我们保持安全并改善开发者体验”当你有超过3,600名内部用户每天使用AI编码工具时,你需要解决跨多个客户端、用例和角色的访问和可见性问题。
一切都从Cloudflare Access开始,它处理所有认证和zero-trust策略执行。认证后,每个LLM请求都通过AI Gateway路由。这给了我们一个单一的地方来管理提供商密钥、成本跟踪和数据保留策略。
AI Gateway分析显示了月度使用如何在模型提供商之间分布。上个月,内部请求量分布如下:
| 提供商 | 每月请求 | 占比 |
|---|---|---|
| Frontier Labs(OpenAI, Anthropic, Google) | 1338万 | 91.16% |
| Workers AI | 130万 | 8.84% |
前沿模型目前处理大部分复杂的agentic编码工作,但Workers AI已经是混合中的重要部分,并处理越来越多我们的agentic工程工作负载。
我们如何越来越多地利用Workers AI
Section titled “我们如何越来越多地利用Workers AI”Workers AI是Cloudflare的无服务器AI推理平台,在我们全球网络的GPU上运行开源模型。除了与前沿模型相比的巨大成本改进之外,一个关键优势是推理停留在与你的Workers、Durable Objects和存储相同的网络上。没有跨云跳转,这会导致更多延迟、网络不稳定和需要管理的额外网络配置。
2026年3月在Workers AI上推出的Kimi K2.5是一个前沿规模的开源模型,具有256k上下文窗口、工具调用和结构化输出。正如我们在Kimi K2.5发布帖子中描述的,我们有一个安全Agent每天在Kimi上处理超过70亿token。在中等专有模型上这将花费估计每年240万美元。但在Workers AI上,它便宜77%。
除了安全,我们还在CI管道中使用Workers AI进行文档审查,用于在数千个仓库中生成AGENTS.md上下文文件,以及用于同网络延迟比峰值模型能力更重要的轻量级推理任务。
工作原理:一个URL配置一切
Section titled “工作原理:一个URL配置一切”整个设置从一个命令开始:
opencode auth login https://opencode.internal.domain该命令触发一个链,配置提供商、模型、MCP服务器、Agent和权限,用户无需触碰配置文件。
步骤1:发现认证要求。 OpenCode从类似https://opencode.internal.domain/.well-known/opencode的URL获取配置。
这个发现端点由Worker提供服务,响应有一个auth块告诉OpenCode如何认证,以及一个config块包含提供商、MCP服务器、Agent、命令和默认权限。
步骤2:通过Cloudflare Access认证。 OpenCode运行认证命令,用户通过与其他所有Cloudflare内部相同的SSO进行认证。cloudflared返回一个签名的JWT。OpenCode在本地存储它并自动附加到每个后续提供商请求。
步骤3:配置合并到OpenCode。 提供的配置是整个组织的共享默认值,但本地配置始终优先。用户可以覆盖默认模型、添加自己的Agent或调整项目和用户范围的权限,而不影响其他人。
代理Worker内部。 Worker是一个简单的Hono应用,做三件事:
- 提供共享配置。 配置在部署时从结构化源文件编译,包含占位符值如
{baseURL}用于Worker的origin。在请求时,Worker替换这些,所以所有提供商请求都通过Worker路由而非直接到模型提供商。 - 代理请求到AI Gateway。 当OpenCode发送类似
POST /anthropic/v1/messages的请求时,Worker验证Cloudflare Access JWT,然后在转发之前重写头部。请求转到AI Gateway,它路由到相应的提供商。响应直接通过,零缓冲。 - 保持模型目录新鲜。 每小时cron触发从
models.dev获取当前OpenAI模型列表,将其缓存在Workers KV中,并为每个模型注入store: false以实现零数据保留。新模型自动获得ZDR,无需配置重新部署。
第二幕:知识层
Section titled “第二幕:知识层”AGENTS.md 作为编码标准
Section titled “AGENTS.md 作为编码标准”Cloudflare采用了一个名为AGENTS.md的文件来定义每个仓库的编码标准。这个文件告诉AI Agent关于代码库、约定和工具链的一切。
- 使用TypeScript,严格模式- 测试用vitest编写- 提交前运行`pnpm lint`这个简单但强大的模式让每个仓库定义自己的编码约定,AI Agent在开始工作之前读取这些约定。这减少了”上下文注入”的手动工作,并确保AI生成的代码遵循团队的标准。
Backstage知识图谱
Section titled “Backstage知识图谱”Cloudflare使用Spotify的Backstage项目作为其内部开发者门户。这创建了一个包含16,000多个实体的知识图谱——仓库、服务、团队和文档——Agent可以使用它来理解系统如何连接。
当Agent需要理解服务如何与另一个服务交互时,它可以查询Backstage知识图谱来获取关系、所有权和文档。这比依赖模型的训练数据准确得多,因为它基于实时、内部数据。
第三幕:执行层
Section titled “第三幕:执行层”AI代码审查
Section titled “AI代码审查”Cloudflare构建了一个AI代码审查系统,作为CI管道的一部分集成。当拉取请求被打开时,AI代码审查Worker被触发,分析更改并提供关于代码质量、安全性和最佳实践的反馈。
系统在AI Gateway上运行,使用前沿模型进行复杂推理。审查结果作为评论发布到拉取请求,为工程师提供关于潜在问题的即时反馈。
这减少了人工审查者花在基本代码审查上的时间,让他们专注于架构决策和复杂逻辑。
Engineering Codex
Section titled “Engineering Codex”Cloudflare的Engineering Codex是一套工程原则和实践,指导团队如何构建和维护高质量软件。它涵盖了从代码组织到测试策略到部署实践的一切。
AI工具被用来执行Codex中的规则。例如,如果工程师尝试提交违反安全协议的代码,AI代码审查系统会标记它并提供关于如何修复它的指导。
这确保了即使在快速移动的AI辅助开发环境中,质量标准也得到维护。
Cloudflare的方法展示了一个关键洞察:最佳内部AI工程栈是你已经构建和出货的产品的延伸。
通过将AI工具构建在他们自己的产品之上——AI Gateway用于路由和成本跟踪、Workers AI用于推理、Workers用于MCP服务器、Access用于认证——Cloudflare实现了一个安全、可扩展且经济高效的内部AI平台。
关键数字回顾:
- 93%的R&D使用AI编码工具
- 每月2000万+ AI Gateway请求
- 2410亿+ token处理
- 季度合并请求的创纪录增长
随着开源模型继续改进和平台继续发展,Cloudflare预计Workers AI将处理越来越多内部工作负载,而前沿模型将继续处理最复杂的agentic任务。
这种混合方法——在正确的工作使用正确的工具——是构建可持续AI工程栈的关键。