GPT-5.4 补齐代码与知识短板，独立开发者的 Agent 成本结构正在被重写

为什么 Agent 基座模型的选择这么重要

一个优秀的 Agent 基座模型，核心需要三项能力同时在线：代码能力、世界知识、多模态理解。代码能力决定了 Agent 能不能准确执行任务，世界知识决定了它能不能理解业务场景并用人话沟通，多模态理解则关系到它能不能处理截图、操作界面等视觉交互。

过去的格局是这样的：Claude Opus 4.6 几乎是 Agent 模型的代名词，代码和世界知识都强，多模态虽然不是最顶尖但够用。GPT-5.3-Codex 代码能力确实猛，任务执行指哪打哪，但它是编程特化模型，世界知识严重拉胯——写出来的文档像天书，非程序员出身的人读起来非常费劲。

举个具体例子：让 GPT-5.3-Codex 审查一个 AI 热点网站项目的文档规范和代码库，它写出来的文档几乎没有人味。同样的任务交给 Claude Opus 4.6，输出的可读性完全不在一个量级。

但 Claude 有一个致命问题：贵。Anthropic 不允许订阅额度用于第三方工具调用，只能硬接 API Key，而 Claude 的 API 价格（输入 $5/百万 token，输出 $25/百万 token）对小团队来说根本扛不住大规模使用。

OpenAI 在这方面的策略截然不同。当 Claude 封锁第三方工具调用账号时，OpenAI 明确表态支持，允许第三方工具调用 Codex 额度，而且持续加量。20 美元的订阅就能用得很爽。

GPT-5.4 的关键跑分

直接看几个最关键的基准测试结果：

GDPval（真实工作任务）：83.0% — 覆盖金融、法律等 44 种职业的知识工作测试。Claude Opus 4.6 是 78.0%，GPT-5.3 Codex 只有 70.9%。说明 GPT-5.4 不只会写代码，还能在专业领域用人话跟你讨论业务。
SWE-Bench Pro（真实软件工程）：57.7% — 测试四种编程语言的真实软件工程问题解决能力。GPT-5.3 Codex 是 56.8%，基本持平。代码能力没有丢。
OSWorld-Verified（计算机操作）：75.0% — 测试 AI 像人一样操作电脑的能力，包括鼠标点击、键盘输入、应用切换。超过了 Claude Opus 4.6 的 72.7%。
ToolAthlon（工具使用）：54.6% — Agent 能力的核心指标之一。Claude Sonnet 4.6 只有 44.8%，差了将近 10 个点。

翻译成一句话：GPT-5.4 = GPT-5.3 Codex 的代码能力 + 比 GPT-5.2 更强的世界知识 + 更强的工具使用能力 + 可以走订阅额度。

三个值得关注的特性更新

100 万 token 上下文窗口。 从 GPT-5.3 的 40 万直接翻到 100 万。对 Agent 来说这很关键——Agent 执行复杂任务时需要保持对整个任务链的上下文理解，窗口不够大就会"干着干着忘事儿"。需要注意的是，超过 27 万 token 后额度按两倍计算，但考虑到 Codex 给的额度本身很充裕，实际影响不大。

原生计算机使用能力。 GPT-5.4 是 OpenAI 第一个内置原生计算机操作能力的主线模型。它在通过 Playwright 等库操作计算机方面表现出色，同时也能根据屏幕截图发出鼠标和键盘命令——代码驱动和视觉驱动两条路都打通了。基于此，OpenAI 还发布了一个新的 skill 叫 playwright-interactive，允许 Codex 同时以代码和视觉两种方式调试 Web 和 Electron 应用。

工具搜索（Tool Search）。 以前给模型配工具，所有工具定义都要预先塞进提示里，工具多的系统每个请求可能多出数千甚至数万 token，绝大多数时候毫无意义。现在 GPT-5.4 支持工具搜索：模型只接收一份轻量的工具列表，需要用某个工具时再动态查找定义并追加到对话中。OpenAI 测试发现这种方式在保持准确率不变的前提下，总体 token 使用量减少了 47%。这个优化对构建大量工具集成的 Agent 系统来说非常实用。

API 价格对比

GPT-5.4 的 API 价格相比 GPT-5.2 有所上涨，但仍然只有 Claude Opus 4.6 的一半左右。不过对大多数独立开发者来说，直接用 20 美元订阅的 Codex 额度才是性价比最高的路径。

实际体验的初步印象

在 Codex 中实际使用 GPT-5.4，最直观的感受是输出终于说人话了。比如让它去抓取网页视频，它会说"这种活最烦"、"省的跟 Cloudflare 互相折寿"——有情绪、有判断，不再是冷冰冰的技术输出。前端审美也有进步，但还是不如 Opus 4.6 和 Gemini。写作方面仍然有一股爱用排比句的习惯，算是小瑕疵。

对于正在用 OpenClaw 或类似 AI Agent 工具的开发者，GPT-5.4 值得作为默认模型认真考虑。它在代码能力、世界知识和成本之间找到了一个过去不存在的平衡点。如果你还没开始用 Agent 工具辅助开发，现在确实是一个不错的起点——模型能力到了这个水平，很多以前需要手动干预的环节已经可以放心交出去了。