DeepSeek V4开源：1M上下文、成本砍到27%，AI主力干活的门槛塌了

1M上下文不再是闭源模型的特权

100万token的长上下文，Claude、GPT-4.1、Gemini早就标配，但DeepSeek上一版V3还停在128k。这次V4直接跳到100万。

一家公司几年的合同、一个项目所有的会议记录、整个季度的运营数据，可以整包丢进去让模型整体理解，不用再做切片拼凑那种脏活。

更关键的是怎么跳上去的。它重新设计了底层注意力机制，处理100万token场景下，推理计算量只有前代的27%，显存降到10%。以前靠堆算力才做得动的事，现在用更少的资源就能跑。这里有个细节值得注意：便宜不是因为打折，是因为架构变聪明了。

衡量Agent编程能力的黄金标准是SWE-bench——让模型自己去修真实代码bug，最接近程序员的实际工作，很难刷分。

这周的成绩单：

DeepSeek内部让50多位工程师用V4-Pro处理真实编程任务，52%的人认为它可以作为主力工具。"可以当主力"这几个字的分量，写代码的人自己最清楚——这是开源模型第一次站上这个台阶。

每百万token输出价格：

差距7到9倍。叠加100万长上下文场景下27%的推理成本和10%的显存占用，结果就是：那些一直放在"以后再说"清单里的场景——全量合同分析、整季运营数据复盘、跨项目知识库召回——今天全部变成"现在就能做"。

吃不下和吃不起，这两个限制同时被解开了。

DeepSeek V4选在GPT-5.5发布的同一天亮相，完全跑在华为芯片上，Apache 2.0开源，全球可用。

一组数字比任何表态都有力：2023年5月，中美顶尖模型性能差距31.6个百分点；2026年3月，压缩到2.7%。期间美国私人AI投资是中国的23倍。

用算法的不对称，抵消算力的不对称。

发动机再强，它自己不会把货从A地运到B地。

企业真正需要的是一套能实际干活的AI团队——内容生产、数据分析、运营执行、代码开发和系统巡检，各司其职，7×24小时不下班。一个像样的配置同时跑七八个数字员工很正常。我自己用的那套是一个主Agent带着笔杆子、参谋、运营官等子Agent协同，这还只是其中一种编排。

DeepSeek V4越强，这支团队的能力上限就越高；越便宜，搭这支团队的门槛就越低。连锁反应就是这么发生的。

顶尖AI能力正在变成公共基础设施。真正的差距不在于你用谁的模型，而在于你怎么把它编排进自己的业务流——建起来，跑起来，用得多深，迭代多快。

模型这一层的红利还在持续放出来，能不能接住，看的是Agent编排能力和业务理解。今天可以做的事：把那些过去因为上下文不够、成本太高而搁置的场景拉出来重新评估一遍，大概率有一半已经能跑了。