Codex写了自己90%的代码：OpenAI编程Agent从内部实验到百万用户的进化路径

从内部实验到百万用户

2024年底，OpenAI内部开始试验各种软件Agent的方向。到了那年秋天，公司把「构建自主软件工程师（aSWE）」定为2025年的头号目标。这个决策直接来自Greg Brockman和Sam Altman——他们坚信，应该有一个自主软件工程师能像真人一样和团队协作。

OpenAI的做法很有意思：同时组建两支团队攻两个方向。Codex Web做云端异步方案，Codex CLI做本地迭代开发。2025年春天两个产品先后发布，CLI版4月上线，ChatGPT内的Codex版5月跟进。到2026年初，用量相比1月暴涨了5倍。2月，Codex桌面端上线，Sam Altman称之为"内部最受欢迎的产品"。紧接着GPT-5.3-Codex发布——OpenAI称这是第一个"帮助创造了自己"的模型。

技术架构：为什么选Rust和开源

Codex和Claude Code在技术选型上走了完全不同的路。Claude Code用TypeScript，走的是"在主流生态里做"的路线。而Codex选择了Rust，并且开源了核心代码库。

这个选择背后的逻辑值得独立开发者琢磨：用什么语言写Agent，本身就是一个架构决策。

Codex如何"自己写自己"

这是整篇报道里最有嚼头的部分。Codex团队估算，Codex应用90%以上的代码是Codex自己生成的。但注意，不是100%——剩下的部分仍然需要人类工程师把控。

团队围绕这种"AI写大部分、人审小部分"的模式，发展出了一套很实用的工程实践：

分级代码审查（Tiered Code Review）：不是所有代码都用同一个标准审。AI生成的代码和人写的代码，审查的重点和深度不同。这对任何用AI辅助开发的团队都有参考价值。
Codex自测：让Codex自己跑测试来验证自己写的代码。说白了就是AI既当运动员又当裁判，但配合人类的最终把关，效率确实高。
通过配对编程onboarding新人：新工程师加入团队后，不是先读文档，而是直接和Codex配对写代码。这个思路其实可以推广——独立开发者接手一个不熟悉的代码库时，让AI Agent先带你过一遍，比啃文档快得多。

研究侧：用当前模型训练下一代

Codex团队用当前版本的模型来训练下一个版本，这个过程和软件工程本身有很多相似之处：跑评估（evals）、做A/B测试、内部吃自己的狗粮（dogfooding）。

这个循环对独立开发者的启示是：你不需要等到完美才发布。用当前版本收集反馈，迭代下一个版本，这个节奏放在AI产品上同样成立。

OpenAI内部怎么用Codex

这部分特别有参考价值。OpenAI的数据基础设施负责人Emma Tang不在Codex团队，但她的团队是Codex的重度用户。她的团队用Codex在两个月内构建了一个内部"数据Agent"——这个项目如果没有Codex，估计要一年以上。

但也不全是好消息。大量AI生成的PR涌入后，传统的PR审查流程开始"撑不住了"。这是个很真实的问题：AI能帮你快速生成代码，但代码审查、合并、部署这些下游环节如果不跟着进化，瓶颈只是从"写代码"转移到了"审代码"。

软件工程正在怎么变

Codex团队提到了几个有意思的观察：

"30/70法则"：大致意思是，30%的工作仍然需要人类的判断和品味，70%可以交给AI。关键不是比例本身，而是那30%的价值被极度放大了。
有些工程师又回到了tab补全：不是所有场景都适合全自主Agent。有时候轻量级的代码补全反而更顺手。这说明工具选择要看场景，别迷信"越自主越好"。
"品味"变得更重要：当AI能写大部分代码时，决定写什么、不写什么、架构怎么设计，这些判断力的价值反而上升了。

OpenClaw的彩蛋

文中还提到了一个有趣的细节：OpenClaw（之前叫Clawd）的创建者Peter Steinberger，用Codex写了整个OpenClaw的代码，他偏好长时间运行的Agent循环模式。后来Peter直接加入了OpenAI做下一代Agent，而OpenClaw继续保持独立和开源。

这对独立开发者是个信号：如果你能用AI Agent工具构建出足够好的开源项目，这本身就是最好的简历。

对独立开发者的实操启示

Codex的故事里，最值得拿走的不是"90%代码由AI生成"这个数字，而是围绕AI生成代码建立的那套工程实践——分级审查、自动测试、配对onboarding。无论你用的是Codex、Claude Code还是Cursor，这些方法论都可以直接搬到自己的工作流里。与其纠结哪个AI编程工具更强，不如先想清楚：当AI能帮你写70%的代码时，你那30%的时间应该花在哪里。