两种截然不同的开发风格

Opus 和 Codex 的核心差异不在于"谁更聪明",而在于它们被训练出了完全不同的工作方式。

Opus 是快速试错型选手。它倾向于立刻动手、迭代修正,非常适合交互式开发——你说一句,它改一版,节奏很快。Codex 则是深度阅读型,默认会先扫描大量代码再动手,虽然互动感弱一些,但因为"读得更多",交付的代码质量往往更高。

Peter 用了一个很生动的比喻:Opus 像一个有点傻但很有趣的同事,你愿意和他搭档;Codex 像角落里你不太想搭话的怪人,但他靠谱,能把事情做完。

Opus 的上限更高,但需要驾驶技巧

如果引导得当,Opus 有时能产出更优雅的解决方案。但这对使用者有要求——你需要主动启用 plan mode,需要用力引导它去深入阅读代码,否则它会迅速跑偏,给出局部化的方案。

Codex 的使用门槛更低。它会自动进入深度思考模式,讨论清楚需求后"消失"20到50分钟甚至更久,直到把事情做完。不需要太多额外的交互和引导,风格更"干"、更稳定。

这里有个实际问题值得独立开发者注意:在模型能力差不多的情况下,真正影响使用体验的是速度。200 美金的 Claude Code 可以流畅快速地开发,使用 Opus 时大部分瓶颈在人的思维速度和精力上。而 Codex 目前即使付同样的价格,也没有提供快速选项,模型速度本身成了瓶颈。

付费层级的陷阱

Peter 指出一个很常见的比较误区:用户为 Claude Code 付了 200 美元,获得了快速、交互式的体验,却只为 OpenAI 付 20 美元,拿到的是慢速版本,然后得出"Codex 不好用"的结论。这种不对等的比较是不公平的。他认为 OpenAI 在定价策略上有点"搬起石头砸自己的脚"——没有给用户一个公平体验产品的机会。

原始智力差距不大,差异在后训练

Peter 认为两个模型的原始智力差距不大,真正拉开差异的是后训练阶段赋予了它们不同的目标和行为模式。没有任何一个模型在所有方面都更好。

值得一提的是 Opus 曾经有严重的"讨好"倾向,最典型的就是不停说"You're absolutely right",一度成为社区梗。Anthropic 后来做了改进,但这个问题仍然值得留意。Peter 还打趣说 Opus"有点太美国了",而 Codex 团队有很多欧洲人,风格更直接。

"模型变笨了"多半是错觉

每次新模型发布,用户先是疯狂赞美,然后逐渐开始抱怨"模型智力在下降"。Peter 认为这更可能是两个原因:一是用户习惯了好东西后期望不断升高;二是随着项目膨胀、代码质量下降,Agent 处理起来越来越吃力。AI 公司没有动机故意降低模型能力,最多在服务器负载高时降低响应速度。

切换模型需要适应期

Peter 建议,如果要从一个模型切换到另一个,至少给自己一周时间来培养直觉。就像从普通吉他换到电吉他,不可能立刻弹好——每个模型都有自己的"手感",需要时间去摸索怎么提问、怎么引导、怎么设定上下文。

对于独立开发者来说,选 Opus 还是 Codex 不是一个"谁更好"的问题,而是匹配工作方式的问题。如果你喜欢快节奏的交互式开发、愿意花精力学习引导技巧,Opus 的上限更高;如果你更想把任务丢出去、等结果回来,Codex 的自主性更强。最务实的做法是两个都试,但记得给每个模型至少一周的磨合期,别急着下结论。