问题出在哪:层与层之间的信息传递是"传声筒"

要理解这篇论文的价值,需要先理解大模型的计算结构。大模型本质上是由几十到上百个"层"堆叠而成的网络,浅层负责理解文本的基本语法结构,深层负责抽象推理——这就是深度学习的核心思想。

Transformer 的革命性突破在于"注意力机制":每个 token 输入时,其计算结果都会保存下来,并与之前所有 token 的结果进行交叉计算,从而捕捉到极其细微的词间相关性,解决了早期模型的"长距离遗忘"问题。

但这里有一个被长期忽视的盲区:词与词之间有了注意力,层与层之间呢?答案是简单相加——这就是标准残差连接。第100层想知道自己和第1层的相关性,只能拿到经过99层逐步变形后的结果,无法直接查询第1层的原始计算输出。

这带来一个实际后果:如果中间某一层产生了特别有价值的计算结果,模型只能在训练时把该层相关向量的绝对值调得极高来"突出"它,导致训练不稳定——今天这层调高,明天那层调高,等于都没调。这就是所谓的"PreNorm 稀释"问题。

Attention Residuals:给层间通信也装上注意力

月之暗面这篇论文的核心思路非常直觉:既然词与词之间加注意力效果这么好,为什么不给层与层之间也加上?

引入 Attention Residuals 后,每一层的结果可以与任意一层的结果直接计算相关性,不再依赖逐层传递的"大杂烩"。用一个直观的比喻:以前做100步逻辑推演时,第100步想用第1步的某个细微线索,只能靠中间99步像传声筒一样传话,传到最后全变味了;现在相当于做卷子最后一道压轴题时,可以直接翻回第一页看公式。

但直接让所有层两两计算,存储和计算成本都太高。论文同步提出了 Block AttnRes 方案:不保存所有层的计算结果,而是将若干层的结果合并为一个块,整体只保留约10个结果,资源消耗直接压缩到1/10。只要信息损失率可控,这个压缩比就是合理的。

实测数据:48B 模型上的验证

Kimi 团队在一个480亿参数的模型上做了验证(推测为新版 kimi-linear),结果相当扎实:

  • 计算效率提升:等效获得25%的额外算力(1.25倍计算效率)
  • 推理延迟:新增不到2%
  • 任务表现:数学、代码编写、多步逻辑推理等复杂任务上全面超越旧架构

这组数字的含义很清楚:几乎免费的性能提升。对于依赖大模型推理能力的应用场景——Agent 的多步规划、复杂代码生成、长链条逻辑分析——这个改进直接转化为产品体验的提升。

和 DeepSeek 的 mHC 有什么区别

二者都针对标准残差连接做改进,但路径不同。DeepSeek 的 mHC 维护多个连接通道,每个通道内的数据使用复杂的矩阵变换处理,本质上是层与层之间的"线性注意力";而 Kimi 的 AttnRes 用的是 Softmax,即真正的注意力机制。

这个区别在工程部署上带来不同的瓶颈特征:

  • DeepSeek mHC:随着 batch_size 增大会越来越慢,瓶颈在显存带宽
  • Kimi AttnRes:大 batch_size 下会爆显存,瓶颈在显存容量(Block AttnRes 需要存储中间结果)

Kimi 团队在论文中也给出了工程解决方案:多机分片加流式处理。

对构建 AI 产品的实际意义

从基础架构优化到工程优化再到实验落地,这篇论文的完整度很高。对于用大模型构建产品的开发者而言,关注点不在论文本身的数学推导,而在于一个事实:当底层架构在推理能力上获得这种级别的"免费"提升时,基于这些模型构建的 Agent 和自动化工作流的可靠性天花板也随之抬高。25%的等效算力提升,落到多步推理任务上,可能就是一个原本需要人工兜底的 Agent 流程变得真正可用的差距。等搭载了这项技术的新版 kimi-linear 开放后,值得在自己的 Agent 场景中跑一轮对比测试。