1M上下文不再是闭源模型的特权

100万token的长上下文,Claude、GPT-4.1、Gemini早就标配,但DeepSeek上一版V3还停在128k。这次V4直接跳到100万。

一家公司几年的合同、一个项目所有的会议记录、整个季度的运营数据,可以整包丢进去让模型整体理解,不用再做切片拼凑那种脏活。

更关键的是怎么跳上去的。它重新设计了底层注意力机制,处理100万token场景下,推理计算量只有前代的27%,显存降到10%。以前靠堆算力才做得动的事,现在用更少的资源就能跑。这里有个细节值得注意:便宜不是因为打折,是因为架构变聪明了。

编程能力站上同一擂台

衡量Agent编程能力的黄金标准是SWE-bench——让模型自己去修真实代码bug,最接近程序员的实际工作,很难刷分。

这周的成绩单:

  • Claude Opus 4.7:87.6%
  • GPT-5.5:82.7%
  • DeepSeek V4-Pro:挤进了同一个区间

DeepSeek内部让50多位工程师用V4-Pro处理真实编程任务,52%的人认为它可以作为主力工具。"可以当主力"这几个字的分量,写代码的人自己最清楚——这是开源模型第一次站上这个台阶。

价格差距7到9倍

每百万token输出价格:

  • DeepSeek V4-Pro:$3.48
  • Claude Opus 4.7:$25
  • GPT-5.5:$30

差距7到9倍。叠加100万长上下文场景下27%的推理成本和10%的显存占用,结果就是:那些一直放在"以后再说"清单里的场景——全量合同分析、整季运营数据复盘、跨项目知识库召回——今天全部变成"现在就能做"。

吃不下和吃不起,这两个限制同时被解开了。

算法的不对称

DeepSeek V4选在GPT-5.5发布的同一天亮相,完全跑在华为芯片上,Apache 2.0开源,全球可用。

一组数字比任何表态都有力:2023年5月,中美顶尖模型性能差距31.6个百分点;2026年3月,压缩到2.7%。期间美国私人AI投资是中国的23倍。

用算法的不对称,抵消算力的不对称。

发动机有了,还需要一辆车

发动机再强,它自己不会把货从A地运到B地。

企业真正需要的是一套能实际干活的AI团队——内容生产、数据分析、运营执行、代码开发和系统巡检,各司其职,7×24小时不下班。一个像样的配置同时跑七八个数字员工很正常。我自己用的那套是一个主Agent带着笔杆子、参谋、运营官等子Agent协同,这还只是其中一种编排。

DeepSeek V4越强,这支团队的能力上限就越高;越便宜,搭这支团队的门槛就越低。连锁反应就是这么发生的。

顶尖AI能力正在变成公共基础设施。真正的差距不在于你用谁的模型,而在于你怎么把它编排进自己的业务流——建起来,跑起来,用得多深,迭代多快。

模型这一层的红利还在持续放出来,能不能接住,看的是Agent编排能力和业务理解。今天可以做的事:把那些过去因为上下文不够、成本太高而搁置的场景拉出来重新评估一遍,大概率有一半已经能跑了。