从内部实验到百万用户

2024年底,OpenAI内部开始试验各种软件Agent的方向。到了那年秋天,公司把「构建自主软件工程师(aSWE)」定为2025年的头号目标。这个决策直接来自Greg Brockman和Sam Altman——他们坚信,应该有一个自主软件工程师能像真人一样和团队协作。

OpenAI的做法很有意思:同时组建两支团队攻两个方向。Codex Web做云端异步方案,Codex CLI做本地迭代开发。2025年春天两个产品先后发布,CLI版4月上线,ChatGPT内的Codex版5月跟进。到2026年初,用量相比1月暴涨了5倍。2月,Codex桌面端上线,Sam Altman称之为"内部最受欢迎的产品"。紧接着GPT-5.3-Codex发布——OpenAI称这是第一个"帮助创造了自己"的模型。

技术架构:为什么选Rust和开源

Codex和Claude Code在技术选型上走了完全不同的路。Claude Code用TypeScript,走的是"在主流生态里做"的路线。而Codex选择了Rust,并且开源了核心代码库。

这个选择背后的逻辑值得独立开发者琢磨:用什么语言写Agent,本身就是一个架构决策。

Codex如何"自己写自己"

这是整篇报道里最有嚼头的部分。Codex团队估算,Codex应用90%以上的代码是Codex自己生成的。但注意,不是100%——剩下的部分仍然需要人类工程师把控。

团队围绕这种"AI写大部分、人审小部分"的模式,发展出了一套很实用的工程实践:

  • 分级代码审查(Tiered Code Review):不是所有代码都用同一个标准审。AI生成的代码和人写的代码,审查的重点和深度不同。这对任何用AI辅助开发的团队都有参考价值。
  • Codex自测:让Codex自己跑测试来验证自己写的代码。说白了就是AI既当运动员又当裁判,但配合人类的最终把关,效率确实高。
  • 通过配对编程onboarding新人:新工程师加入团队后,不是先读文档,而是直接和Codex配对写代码。这个思路其实可以推广——独立开发者接手一个不熟悉的代码库时,让AI Agent先带你过一遍,比啃文档快得多。

研究侧:用当前模型训练下一代

Codex团队用当前版本的模型来训练下一个版本,这个过程和软件工程本身有很多相似之处:跑评估(evals)、做A/B测试、内部吃自己的狗粮(dogfooding)。

这个循环对独立开发者的启示是:你不需要等到完美才发布。用当前版本收集反馈,迭代下一个版本,这个节奏放在AI产品上同样成立。

OpenAI内部怎么用Codex

这部分特别有参考价值。OpenAI的数据基础设施负责人Emma Tang不在Codex团队,但她的团队是Codex的重度用户。她的团队用Codex在两个月内构建了一个内部"数据Agent"——这个项目如果没有Codex,估计要一年以上。

但也不全是好消息。大量AI生成的PR涌入后,传统的PR审查流程开始"撑不住了"。这是个很真实的问题:AI能帮你快速生成代码,但代码审查、合并、部署这些下游环节如果不跟着进化,瓶颈只是从"写代码"转移到了"审代码"。

软件工程正在怎么变

Codex团队提到了几个有意思的观察:

  • "30/70法则":大致意思是,30%的工作仍然需要人类的判断和品味,70%可以交给AI。关键不是比例本身,而是那30%的价值被极度放大了。
  • 有些工程师又回到了tab补全:不是所有场景都适合全自主Agent。有时候轻量级的代码补全反而更顺手。这说明工具选择要看场景,别迷信"越自主越好"。
  • "品味"变得更重要:当AI能写大部分代码时,决定写什么、不写什么、架构怎么设计,这些判断力的价值反而上升了。

OpenClaw的彩蛋

文中还提到了一个有趣的细节:OpenClaw(之前叫Clawd)的创建者Peter Steinberger,用Codex写了整个OpenClaw的代码,他偏好长时间运行的Agent循环模式。后来Peter直接加入了OpenAI做下一代Agent,而OpenClaw继续保持独立和开源。

这对独立开发者是个信号:如果你能用AI Agent工具构建出足够好的开源项目,这本身就是最好的简历。

对独立开发者的实操启示

Codex的故事里,最值得拿走的不是"90%代码由AI生成"这个数字,而是围绕AI生成代码建立的那套工程实践——分级审查、自动测试、配对onboarding。无论你用的是Codex、Claude Code还是Cursor,这些方法论都可以直接搬到自己的工作流里。与其纠结哪个AI编程工具更强,不如先想清楚:当AI能帮你写70%的代码时,你那30%的时间应该花在哪里。