Anthropic 的 Mythos 王牌：碾压级实力背后藏着几根易断的软肋

Mythos 强在哪里：三组数据的碾压

2026 年上半年，Anthropic 推出的新一代模型 Mythos 成了整个硅谷 AI 圈的焦点。名字源自希腊语"神话传说"——但看完评测数据，会觉得这个名字甚至有点谦虚。

编程。SWE-bench Pro 是业界公认最苛刻的编程评测，扔一个真实代码仓库过去，要求跨文件修 bug、改架构，模拟工程师实际干活。Opus 4.6 拿到 53.4%，已是上一代天花板。Mythos 直接干到 77.8%——从"能干活的中级工程师"跳到"能独立负责复杂项目的高级工程师"。

数学。USAMO 2026（美国数学奥林匹克真题），Opus 4.6 得分 42.3%，刚摸到及格线；Mythos 干到 97.6%，距离满分一步之遥。翻倍级的领先。

通用智力。"人类最后的测试"由几百位专家联合出题、专门为了让 AI 做不出而设计。Opus 拿 53 分，Mythos 拿了 64.7 分，硬是突破了 60 分大关。

让硅谷真正坐不住的，是安全维度

比编程和数学更让人警惕的是 Mythos 在攻防层面的能力。《纽约时报》把它称为"可怕的警钟"，卫报称其为"零日漏洞机器"——做过网络安全的人看完下面这组数字会后背发凉。

CTF 安全挑战（真实攻防）：在 Mythos 之前，所有大模型在这类任务上的成功率趋近于零。Mythos 一上来 73%。
英国 AI 安全研究所 AISI 测试：让 Mythos 模拟攻击企业内网，从侦察、渗透到完全掌控，全链路 32 步。人类安全专家干完同样的事要 20 多个小时，Mythos 在 10 小时内完成了 3 次。
OpenBSD 操作系统藏了 27 年的安全漏洞、全球顶尖研究者都没发现的那个——Mythos 找到了。
Firefox 浏览器安全测试：Opus 4.6 成功写出 2 次攻击，Mythos 写出 181 次。两个数量级。

把三组数据并排摊在桌上，结论很清楚：Mythos 对上一代所有模型实现了全面碾压。

8 小时不停手——AGI 的重新定义

Mythos 真正的杀手锏是耐久度。

现在的大模型干不了长任务，复杂一点就断、回头问你要不要继续。Opus 4.6 能连续工作一两个小时，已经到顶。Mythos 把这条天花板直接抬走：给它一句话，可以连续 8 小时自主执行——自己拆解、写代码、跑测试、看结果、复盘、再改。早上交代一个工程任务，下午回来它还在推进。

这件事直接引发了硅谷对 AGI 的重新讨论。谷歌联合创始人谢尔盖·布林在一次内部会议上的话已经传遍硅谷：

"如果你用过 Mythos，你就会感觉到这就是一个纯粹的 AGI。如果你觉得这都不是 AGI，那我就不知道什么是 AGI 了。"

硅谷正在形成的共识是：能自我改进的系统就是 AGI。能自己写代码、自己看效果、再写代码——那就是 AGI。布林由此做出一个决定：要求谷歌大模型团队从多模态全力转向 Coding 模型。

对独立开发者来说，这件事的意义不只是"工具更强了"。它意味着一个人能在一夜之间持有一个"高级工程师当量"，且没有沟通成本。一人公司的产能上限，正在被这条曲线重新定义。

不公开发布——一门只做企业生意的账本

模型强到这个程度，普通用户却接触不到。Anthropic 选择了一条和 OpenAI 完全相反的路径。

Mythos 不向公众开放，由一个叫 Project Glasswing 的框架管控，仅限 12 家科技巨头加 40 个安全组织做防御性研究。所有可能被这个模型攻击的巨头，同时也是最早拿到模型做防御的一方。这步棋既是安全考量，也是政治考量。

与此同时，Anthropic 挑了全美 100 家大企业开始输送服务。价格不低：每百万 Token 输出 125 美元，是 Opus 4.7 的 5 倍。

Anthropic 的账本是这么算的：不需要所有人用，100 家大企业就够了。

企业 API 占其收入 70%–75%
Claude Code 年化收入超过 25 亿美元
B 端商业模型已被市场实打实验证

真正让投资圈兴奋的，是硅谷另一条流传中的消息：Anthropic 在实验 revenue share 模式——用我的模型让你营收增长 10%，我从中拿 1%–2%。

这条路一旦跑通，AI 公司就不再是卖工具了，而是直接卖"收入增长服务"。这事过去要靠麦肯锡和高薪工程师团队，周期长、成本高。现在一个模型干完，且干得更好。

回头看 OpenAI，两条路线的差距一目了然。OpenAI 走 C 端订阅，每月 20 美元，用户量天花板就是地球人口。 谷歌一年广告收入四五千亿美金，加上 Meta，全拿下也就七八千亿。到这个体量，估值自然撞墙。Anthropic 切的是企业的成本支出端——全球企业每年花在人力、咨询、研发上的钱是几十万亿美金量级。从中抽 1–2 个点，天花板根本不在一个数量级上。

这是 Anthropic 商业故事里最性感的部分：它不是在 AI 工具市场里厮杀，而是在重新定义"AI 是被怎么定价的"。

三根软肋

当然，这家公司远远不到无敌的程度。

一、算力的周期赌局

一个月前 Anthropic 还在被用户骂"降智、降限额"，原因就是算力跟不上。CEO Dario Amodei 凡尔赛了一句："本来以为今年增长三四倍就够了，没想到涨了 10 倍。"

涨 10 倍当然爽，但算力储备是按三四倍建的，缺口大到必须立刻下重注。2026 年 5 月 7 日 Anthropic 租下了 SpaceX 的 Colossus 1 超算集群，但底层问题没解。GPU 是大宗商品，采购逻辑是刚性的——一次买足未来三到五年的量，建机房、通电、上规模，每一步都有无法压缩的固定周期。

买卡本质就是赌未来的收入曲线。赌对了皆大欢喜；一旦增长放缓，那批卡瞬间变成沉没成本。Amodei 自己公开承认过：公司可能因此破产。

这是高增长公司的经典悖论：增长越快，被迫下的注就越大；注下得越大，容错空间就越小。

二、人才密度

Anthropic 目前约 3000 人。DeepMind 接近 2 万人，谷歌旗下还有多个 AI 团队，加上 Meta、微软、OpenAI——整个硅谷已经把 Anthropic 当成第一假想敌。各家研究方向正从"怎么做出好 AI"转向"怎么打 Anthropic"。

好消息是势头在这边：已有创业公司 CTO 辞职过来做普通研究员，这种人才吸力上一次峰值是 2008 年的 Google。但 3000 人对整个硅谷生态，这场仗并不好打。

三、销售基因

现在的情况是企业 API 占收入大头，纯自然增长，企业抢着用。但 enterprise 永远绕不开销售团队这门必修课。Anthropic 是极客型组织——模型好、技术强，但"怎么卖"几乎没建过体系。

现在企业抢着用，是因为市场上没得选。等竞争对手拿出差不多水准的模型，企业为什么还选你？到时候拼的就是谁能靠销售扎进行业、把客户绑定。

最致命的从来不是外部

三根软肋哪一根都不算小事。但更危险的其实不在外部——处在超高速爆发期的公司，外部竞争和资源瓶颈打不倒它，真正危险的是内部判断力：在飞轮转得最快时，能不能保持克制。

钱多了诱惑就来：要不要做消费者产品？基础设施要不要横向扩张？每条路看起来都对，每条路都可能把人从"专注"拖向"平庸"。这是过去十年很多明星公司翻车的同一个剧本。

硅谷的魅力恰恰也在这里：永远会有一个 think different 的团队，从你完全没想到的角度杀出来。1998 年的 Google，2004 年的 Facebook，2015 年的 OpenAI，2022 年的 Anthropic——同一个叙事一直在重复：这里没有永恒的赢家。

下一个 Anthropic，可能已经在某个车库里敲下了第一行代码。对独立开发者来说，这句话比任何模型评测数据都值得贴在墙上——当一个一人公司可以租用 8 小时连续工作的"高级工程师"时，车库的门槛从未如此之低。