到底强在哪

Artificial Analysis 的智能指数综合了10项评估,覆盖智能体任务、编码和科学推理等能力。Opus 4.6 在其中三项拿到了单项冠军:

  • GDPval-AA(智能体实际工作任务):模拟做PPT、数据分析、视频剪辑等知识型工作,Opus 4.6 排名第一
  • TerminalBench(智能体编码与终端操作):这个对 Claude Code 用户最有感,说白了就是测模型在终端里写代码、跑命令的能力
  • CritPT(研究级物理问题):Opus 4.6 拿到了13%的最高分,甚至在不开思考模式的情况下也能打到约3%,超过了好几个开了思考模式的竞品

在知识与幻觉测试(Omniscience Index)上,Opus 4.6 排到了第二名,准确率第三、幻觉率第四低,算是在"既要说得对、又要不瞎编"这件事上找到了不错的平衡点。

不过也不是全面碾压。长上下文推理(AA-LCR)退步了3个百分点,指令跟随(IFBench)掉了5个百分点,幻觉率也微涨了2个百分点。有进有退,别无脑吹。

"自适应思考"模式:终于不用猜token预算了

Opus 4.6 最值得关注的架构变化是引入了**自适应思考(Adaptive Thinking)**模式,替代了之前让人头疼的"扩展思考"模式。以前你得设一个"思考token预算",说实话大部分开发者都是在瞎蒙这个数字。现在简化成了 effort 参数,四档可选:lowmediumhighmax,模型自己决定思考多久。

有意思的是,在 TerminalBench 上,不开思考模式反而比开了 max effort 得分更高(49% vs 46%)。这说明不是所有场景都需要模型"深度思考",有时候直觉反应更快更准。对实际使用 Claude Code 的人来说,这是个有用的信号:简单任务别开高档思考,省钱又省时间。

上下文窗口和输出翻倍

两个硬指标的提升很实在:

  • 上下文窗口:从 Opus 4.5 的 200K 直接拉到 1M tokens(目前Beta阶段),5倍提升,跟 Gemini 3 Pro 站到了同一水平线
  • 最大输出:从 64K 翻倍到 128K tokens

对独立开发者来说,1M 上下文意味着你可以把整个中型项目一次性喂进去让它理解,128K 输出意味着它能一口气生成更完整的代码文件,不用再分段拼接。

钱的问题

定价没变,还是 $5/$25 每百万 input/output tokens,跟 Opus 4.5 一样。但问题在于,自适应思考模式下 Opus 4.6 吃掉了 5800万 output tokens 来跑完整个评估,是 Opus 4.5 思考模式的2倍(2900万)。跑一次完整智能指数评估花了 $2,486,比之前排第一的 GPT-5.2 xhigh 模式($2,304)还贵。

不过换个角度看,GPT-5.2 xhigh 模式用了 1.3 亿 output tokens,Opus 4.6 只用了不到一半。Anthropic 的模型依然是 token 效率最高的那一档,只是单价贵。如果你的场景能用上缓存输入折扣(Anthropic 有提供),实际成本会低不少。

对 Claude Code 用户意味着什么

说回实际场景。如果你每天用 Claude Code 写代码、搭产品,Opus 4.6 的升级核心就三件事:

  1. 智能体能力更强了——在终端里执行多步任务、理解复杂项目结构的能力是实测第一
  2. 上下文窗口够大了——中大型项目不用再精心挑选哪些文件喂给它
  3. 花钱更多了——思考模式下 token 消耗翻倍,建议根据任务复杂度灵活切换 effort 等级,简单任务用 low 或干脆关掉思考

目前 Opus 4.6 已经在 Anthropic API、Vertex、Bedrock 和 Azure 上线,Claude Chat、Claude Cowork 和 Claude Code 也都能用。对于预算有限的独立开发者,一个务实的策略是:日常编码用 Sonnet 打底,遇到架构级的复杂问题再切 Opus 4.6 max effort——别让最强模型去干格式化代码这种活。