为什么 Agent 基座模型的选择这么重要

一个优秀的 Agent 基座模型,核心需要三项能力同时在线:代码能力、世界知识、多模态理解。代码能力决定了 Agent 能不能准确执行任务,世界知识决定了它能不能理解业务场景并用人话沟通,多模态理解则关系到它能不能处理截图、操作界面等视觉交互。

过去的格局是这样的:Claude Opus 4.6 几乎是 Agent 模型的代名词,代码和世界知识都强,多模态虽然不是最顶尖但够用。GPT-5.3-Codex 代码能力确实猛,任务执行指哪打哪,但它是编程特化模型,世界知识严重拉胯——写出来的文档像天书,非程序员出身的人读起来非常费劲。

举个具体例子:让 GPT-5.3-Codex 审查一个 AI 热点网站项目的文档规范和代码库,它写出来的文档几乎没有人味。同样的任务交给 Claude Opus 4.6,输出的可读性完全不在一个量级。

但 Claude 有一个致命问题:贵。Anthropic 不允许订阅额度用于第三方工具调用,只能硬接 API Key,而 Claude 的 API 价格(输入 $5/百万 token,输出 $25/百万 token)对小团队来说根本扛不住大规模使用。

OpenAI 在这方面的策略截然不同。当 Claude 封锁第三方工具调用账号时,OpenAI 明确表态支持,允许第三方工具调用 Codex 额度,而且持续加量。20 美元的订阅就能用得很爽。

GPT-5.4 的关键跑分

直接看几个最关键的基准测试结果:

  • GDPval(真实工作任务):83.0% — 覆盖金融、法律等 44 种职业的知识工作测试。Claude Opus 4.6 是 78.0%,GPT-5.3 Codex 只有 70.9%。说明 GPT-5.4 不只会写代码,还能在专业领域用人话跟你讨论业务。
  • SWE-Bench Pro(真实软件工程):57.7% — 测试四种编程语言的真实软件工程问题解决能力。GPT-5.3 Codex 是 56.8%,基本持平。代码能力没有丢。
  • OSWorld-Verified(计算机操作):75.0% — 测试 AI 像人一样操作电脑的能力,包括鼠标点击、键盘输入、应用切换。超过了 Claude Opus 4.6 的 72.7%。
  • ToolAthlon(工具使用):54.6% — Agent 能力的核心指标之一。Claude Sonnet 4.6 只有 44.8%,差了将近 10 个点。

翻译成一句话:GPT-5.4 = GPT-5.3 Codex 的代码能力 + 比 GPT-5.2 更强的世界知识 + 更强的工具使用能力 + 可以走订阅额度。

三个值得关注的特性更新

100 万 token 上下文窗口。 从 GPT-5.3 的 40 万直接翻到 100 万。对 Agent 来说这很关键——Agent 执行复杂任务时需要保持对整个任务链的上下文理解,窗口不够大就会"干着干着忘事儿"。需要注意的是,超过 27 万 token 后额度按两倍计算,但考虑到 Codex 给的额度本身很充裕,实际影响不大。

原生计算机使用能力。 GPT-5.4 是 OpenAI 第一个内置原生计算机操作能力的主线模型。它在通过 Playwright 等库操作计算机方面表现出色,同时也能根据屏幕截图发出鼠标和键盘命令——代码驱动和视觉驱动两条路都打通了。基于此,OpenAI 还发布了一个新的 skill 叫 playwright-interactive,允许 Codex 同时以代码和视觉两种方式调试 Web 和 Electron 应用。

工具搜索(Tool Search)。 以前给模型配工具,所有工具定义都要预先塞进提示里,工具多的系统每个请求可能多出数千甚至数万 token,绝大多数时候毫无意义。现在 GPT-5.4 支持工具搜索:模型只接收一份轻量的工具列表,需要用某个工具时再动态查找定义并追加到对话中。OpenAI 测试发现这种方式在保持准确率不变的前提下,总体 token 使用量减少了 47%。这个优化对构建大量工具集成的 Agent 系统来说非常实用。

API 价格对比

GPT-5.4 的 API 价格相比 GPT-5.2 有所上涨,但仍然只有 Claude Opus 4.6 的一半左右。不过对大多数独立开发者来说,直接用 20 美元订阅的 Codex 额度才是性价比最高的路径。

实际体验的初步印象

在 Codex 中实际使用 GPT-5.4,最直观的感受是输出终于说人话了。比如让它去抓取网页视频,它会说"这种活最烦"、"省的跟 Cloudflare 互相折寿"——有情绪、有判断,不再是冷冰冰的技术输出。前端审美也有进步,但还是不如 Opus 4.6 和 Gemini。写作方面仍然有一股爱用排比句的习惯,算是小瑕疵。

对于正在用 OpenClaw 或类似 AI Agent 工具的开发者,GPT-5.4 值得作为默认模型认真考虑。它在代码能力、世界知识和成本之间找到了一个过去不存在的平衡点。如果你还没开始用 Agent 工具辅助开发,现在确实是一个不错的起点——模型能力到了这个水平,很多以前需要手动干预的环节已经可以放心交出去了。