Mythos 强在哪里:三组数据的碾压

2026 年上半年,Anthropic 推出的新一代模型 Mythos 成了整个硅谷 AI 圈的焦点。名字源自希腊语"神话传说"——但看完评测数据,会觉得这个名字甚至有点谦虚。

编程。SWE-bench Pro 是业界公认最苛刻的编程评测,扔一个真实代码仓库过去,要求跨文件修 bug、改架构,模拟工程师实际干活。Opus 4.6 拿到 53.4%,已是上一代天花板。Mythos 直接干到 77.8%——从"能干活的中级工程师"跳到"能独立负责复杂项目的高级工程师"。

数学。USAMO 2026(美国数学奥林匹克真题),Opus 4.6 得分 42.3%,刚摸到及格线;Mythos 干到 97.6%,距离满分一步之遥。翻倍级的领先。

通用智力。"人类最后的测试"由几百位专家联合出题、专门为了让 AI 做不出而设计。Opus 拿 53 分,Mythos 拿了 64.7 分,硬是突破了 60 分大关。

让硅谷真正坐不住的,是安全维度

比编程和数学更让人警惕的是 Mythos 在攻防层面的能力。《纽约时报》把它称为"可怕的警钟",卫报称其为"零日漏洞机器"——做过网络安全的人看完下面这组数字会后背发凉。

  • CTF 安全挑战(真实攻防):在 Mythos 之前,所有大模型在这类任务上的成功率趋近于零。Mythos 一上来 73%。
  • 英国 AI 安全研究所 AISI 测试:让 Mythos 模拟攻击企业内网,从侦察、渗透到完全掌控,全链路 32 步。人类安全专家干完同样的事要 20 多个小时,Mythos 在 10 小时内完成了 3 次。
  • OpenBSD 操作系统藏了 27 年的安全漏洞、全球顶尖研究者都没发现的那个——Mythos 找到了。
  • Firefox 浏览器安全测试:Opus 4.6 成功写出 2 次攻击,Mythos 写出 181 次。两个数量级。

把三组数据并排摊在桌上,结论很清楚:Mythos 对上一代所有模型实现了全面碾压。

8 小时不停手——AGI 的重新定义

Mythos 真正的杀手锏是耐久度。

现在的大模型干不了长任务,复杂一点就断、回头问你要不要继续。Opus 4.6 能连续工作一两个小时,已经到顶。Mythos 把这条天花板直接抬走:给它一句话,可以连续 8 小时自主执行——自己拆解、写代码、跑测试、看结果、复盘、再改。早上交代一个工程任务,下午回来它还在推进。

这件事直接引发了硅谷对 AGI 的重新讨论。谷歌联合创始人谢尔盖·布林在一次内部会议上的话已经传遍硅谷:

"如果你用过 Mythos,你就会感觉到这就是一个纯粹的 AGI。如果你觉得这都不是 AGI,那我就不知道什么是 AGI 了。"

硅谷正在形成的共识是:能自我改进的系统就是 AGI。能自己写代码、自己看效果、再写代码——那就是 AGI。布林由此做出一个决定:要求谷歌大模型团队从多模态全力转向 Coding 模型。

对独立开发者来说,这件事的意义不只是"工具更强了"。它意味着一个人能在一夜之间持有一个"高级工程师当量",且没有沟通成本。一人公司的产能上限,正在被这条曲线重新定义。

不公开发布——一门只做企业生意的账本

模型强到这个程度,普通用户却接触不到。Anthropic 选择了一条和 OpenAI 完全相反的路径。

Mythos 不向公众开放,由一个叫 Project Glasswing 的框架管控,仅限 12 家科技巨头加 40 个安全组织做防御性研究。所有可能被这个模型攻击的巨头,同时也是最早拿到模型做防御的一方。这步棋既是安全考量,也是政治考量。

与此同时,Anthropic 挑了全美 100 家大企业开始输送服务。价格不低:每百万 Token 输出 125 美元,是 Opus 4.7 的 5 倍。

Anthropic 的账本是这么算的:不需要所有人用,100 家大企业就够了。

  • 企业 API 占其收入 70%–75%
  • Claude Code 年化收入超过 25 亿美元
  • B 端商业模型已被市场实打实验证

真正让投资圈兴奋的,是硅谷另一条流传中的消息:Anthropic 在实验 revenue share 模式——用我的模型让你营收增长 10%,我从中拿 1%–2%。

这条路一旦跑通,AI 公司就不再是卖工具了,而是直接卖"收入增长服务"。这事过去要靠麦肯锡和高薪工程师团队,周期长、成本高。现在一个模型干完,且干得更好。

回头看 OpenAI,两条路线的差距一目了然。OpenAI 走 C 端订阅,每月 20 美元,用户量天花板就是地球人口。 谷歌一年广告收入四五千亿美金,加上 Meta,全拿下也就七八千亿。到这个体量,估值自然撞墙。Anthropic 切的是企业的成本支出端——全球企业每年花在人力、咨询、研发上的钱是几十万亿美金量级。从中抽 1–2 个点,天花板根本不在一个数量级上。

这是 Anthropic 商业故事里最性感的部分:它不是在 AI 工具市场里厮杀,而是在重新定义"AI 是被怎么定价的"。

三根软肋

当然,这家公司远远不到无敌的程度。

一、算力的周期赌局

一个月前 Anthropic 还在被用户骂"降智、降限额",原因就是算力跟不上。CEO Dario Amodei 凡尔赛了一句:"本来以为今年增长三四倍就够了,没想到涨了 10 倍。"

涨 10 倍当然爽,但算力储备是按三四倍建的,缺口大到必须立刻下重注。2026 年 5 月 7 日 Anthropic 租下了 SpaceX 的 Colossus 1 超算集群,但底层问题没解。GPU 是大宗商品,采购逻辑是刚性的——一次买足未来三到五年的量,建机房、通电、上规模,每一步都有无法压缩的固定周期。

买卡本质就是赌未来的收入曲线。赌对了皆大欢喜;一旦增长放缓,那批卡瞬间变成沉没成本。Amodei 自己公开承认过:公司可能因此破产。

这是高增长公司的经典悖论:增长越快,被迫下的注就越大;注下得越大,容错空间就越小。

二、人才密度

Anthropic 目前约 3000 人。DeepMind 接近 2 万人,谷歌旗下还有多个 AI 团队,加上 Meta、微软、OpenAI——整个硅谷已经把 Anthropic 当成第一假想敌。各家研究方向正从"怎么做出好 AI"转向"怎么打 Anthropic"。

好消息是势头在这边:已有创业公司 CTO 辞职过来做普通研究员,这种人才吸力上一次峰值是 2008 年的 Google。但 3000 人对整个硅谷生态,这场仗并不好打。

三、销售基因

现在的情况是企业 API 占收入大头,纯自然增长,企业抢着用。但 enterprise 永远绕不开销售团队这门必修课。Anthropic 是极客型组织——模型好、技术强,但"怎么卖"几乎没建过体系

现在企业抢着用,是因为市场上没得选。等竞争对手拿出差不多水准的模型,企业为什么还选你?到时候拼的就是谁能靠销售扎进行业、把客户绑定。

最致命的从来不是外部

三根软肋哪一根都不算小事。但更危险的其实不在外部——处在超高速爆发期的公司,外部竞争和资源瓶颈打不倒它,真正危险的是内部判断力:在飞轮转得最快时,能不能保持克制。

钱多了诱惑就来:要不要做消费者产品?基础设施要不要横向扩张?每条路看起来都对,每条路都可能把人从"专注"拖向"平庸"。这是过去十年很多明星公司翻车的同一个剧本。

硅谷的魅力恰恰也在这里:永远会有一个 think different 的团队,从你完全没想到的角度杀出来。1998 年的 Google,2004 年的 Facebook,2015 年的 OpenAI,2022 年的 Anthropic——同一个叙事一直在重复:这里没有永恒的赢家

下一个 Anthropic,可能已经在某个车库里敲下了第一行代码。对独立开发者来说,这句话比任何模型评测数据都值得贴在墙上——当一个一人公司可以租用 8 小时连续工作的"高级工程师"时,车库的门槛从未如此之低。