Claude Opus 4.6 登顶综合智能指数榜首，独立开发者的生产力天花板又被抬高了

到底强在哪

Artificial Analysis 的智能指数综合了10项评估，覆盖智能体任务、编码和科学推理等能力。Opus 4.6 在其中三项拿到了单项冠军：

GDPval-AA（智能体实际工作任务）：模拟做PPT、数据分析、视频剪辑等知识型工作，Opus 4.6 排名第一
TerminalBench（智能体编码与终端操作）：这个对 Claude Code 用户最有感，说白了就是测模型在终端里写代码、跑命令的能力
CritPT（研究级物理问题）：Opus 4.6 拿到了13%的最高分，甚至在不开思考模式的情况下也能打到约3%，超过了好几个开了思考模式的竞品

在知识与幻觉测试（Omniscience Index）上，Opus 4.6 排到了第二名，准确率第三、幻觉率第四低，算是在"既要说得对、又要不瞎编"这件事上找到了不错的平衡点。

不过也不是全面碾压。长上下文推理（AA-LCR）退步了3个百分点，指令跟随（IFBench）掉了5个百分点，幻觉率也微涨了2个百分点。有进有退，别无脑吹。

"自适应思考"模式：终于不用猜token预算了

Opus 4.6 最值得关注的架构变化是引入了**自适应思考（Adaptive Thinking）**模式，替代了之前让人头疼的"扩展思考"模式。以前你得设一个"思考token预算"，说实话大部分开发者都是在瞎蒙这个数字。现在简化成了 effort 参数，四档可选：low、medium、high、max，模型自己决定思考多久。

有意思的是，在 TerminalBench 上，不开思考模式反而比开了 max effort 得分更高（49% vs 46%）。这说明不是所有场景都需要模型"深度思考"，有时候直觉反应更快更准。对实际使用 Claude Code 的人来说，这是个有用的信号：简单任务别开高档思考，省钱又省时间。

上下文窗口和输出翻倍

两个硬指标的提升很实在：

上下文窗口：从 Opus 4.5 的 200K 直接拉到 1M tokens（目前Beta阶段），5倍提升，跟 Gemini 3 Pro 站到了同一水平线
最大输出：从 64K 翻倍到 128K tokens

对独立开发者来说，1M 上下文意味着你可以把整个中型项目一次性喂进去让它理解，128K 输出意味着它能一口气生成更完整的代码文件，不用再分段拼接。

钱的问题

定价没变，还是 $5/$25 每百万 input/output tokens，跟 Opus 4.5 一样。但问题在于，自适应思考模式下 Opus 4.6 吃掉了 5800万 output tokens 来跑完整个评估，是 Opus 4.5 思考模式的2倍（2900万）。跑一次完整智能指数评估花了 $2,486，比之前排第一的 GPT-5.2 xhigh 模式（$2,304）还贵。

不过换个角度看，GPT-5.2 xhigh 模式用了 1.3 亿 output tokens，Opus 4.6 只用了不到一半。Anthropic 的模型依然是 token 效率最高的那一档，只是单价贵。如果你的场景能用上缓存输入折扣（Anthropic 有提供），实际成本会低不少。

对 Claude Code 用户意味着什么

说回实际场景。如果你每天用 Claude Code 写代码、搭产品，Opus 4.6 的升级核心就三件事：

智能体能力更强了——在终端里执行多步任务、理解复杂项目结构的能力是实测第一
上下文窗口够大了——中大型项目不用再精心挑选哪些文件喂给它
花钱更多了——思考模式下 token 消耗翻倍，建议根据任务复杂度灵活切换 effort 等级，简单任务用 low 或干脆关掉思考

目前 Opus 4.6 已经在 Anthropic API、Vertex、Bedrock 和 Azure 上线，Claude Chat、Claude Cowork 和 Claude Code 也都能用。对于预算有限的独立开发者，一个务实的策略是：日常编码用 Sonnet 打底，遇到架构级的复杂问题再切 Opus 4.6 max effort——别让最强模型去干格式化代码这种活。