月之暗面改动Transformer最古老的组件，推理提升25%延迟仅增2%

问题出在哪：层与层之间的信息传递是"传声筒"

要理解这篇论文的价值，需要先理解大模型的计算结构。大模型本质上是由几十到上百个"层"堆叠而成的网络，浅层负责理解文本的基本语法结构，深层负责抽象推理——这就是深度学习的核心思想。

Transformer 的革命性突破在于"注意力机制"：每个 token 输入时，其计算结果都会保存下来，并与之前所有 token 的结果进行交叉计算，从而捕捉到极其细微的词间相关性，解决了早期模型的"长距离遗忘"问题。

但这里有一个被长期忽视的盲区：词与词之间有了注意力，层与层之间呢？答案是简单相加——这就是标准残差连接。第100层想知道自己和第1层的相关性，只能拿到经过99层逐步变形后的结果，无法直接查询第1层的原始计算输出。

这带来一个实际后果：如果中间某一层产生了特别有价值的计算结果，模型只能在训练时把该层相关向量的绝对值调得极高来"突出"它，导致训练不稳定——今天这层调高，明天那层调高，等于都没调。这就是所谓的"PreNorm 稀释"问题。

Attention Residuals：给层间通信也装上注意力

月之暗面这篇论文的核心思路非常直觉：既然词与词之间加注意力效果这么好，为什么不给层与层之间也加上？

引入 Attention Residuals 后，每一层的结果可以与任意一层的结果直接计算相关性，不再依赖逐层传递的"大杂烩"。用一个直观的比喻：以前做100步逻辑推演时，第100步想用第1步的某个细微线索，只能靠中间99步像传声筒一样传话，传到最后全变味了；现在相当于做卷子最后一道压轴题时，可以直接翻回第一页看公式。

但直接让所有层两两计算，存储和计算成本都太高。论文同步提出了 Block AttnRes 方案：不保存所有层的计算结果，而是将若干层的结果合并为一个块，整体只保留约10个结果，资源消耗直接压缩到1/10。只要信息损失率可控，这个压缩比就是合理的。

实测数据：48B 模型上的验证

Kimi 团队在一个480亿参数的模型上做了验证（推测为新版 kimi-linear），结果相当扎实：

计算效率提升：等效获得25%的额外算力（1.25倍计算效率）
推理延迟：新增不到2%
任务表现：数学、代码编写、多步逻辑推理等复杂任务上全面超越旧架构

这组数字的含义很清楚：几乎免费的性能提升。对于依赖大模型推理能力的应用场景——Agent 的多步规划、复杂代码生成、长链条逻辑分析——这个改进直接转化为产品体验的提升。

和 DeepSeek 的 mHC 有什么区别

二者都针对标准残差连接做改进，但路径不同。DeepSeek 的 mHC 维护多个连接通道，每个通道内的数据使用复杂的矩阵变换处理，本质上是层与层之间的"线性注意力"；而 Kimi 的 AttnRes 用的是 Softmax，即真正的注意力机制。

这个区别在工程部署上带来不同的瓶颈特征：

DeepSeek mHC：随着 batch_size 增大会越来越慢，瓶颈在显存带宽
Kimi AttnRes：大 batch_size 下会爆显存，瓶颈在显存容量（Block AttnRes 需要存储中间结果）

Kimi 团队在论文中也给出了工程解决方案：多机分片加流式处理。

对构建 AI 产品的实际意义

从基础架构优化到工程优化再到实验落地，这篇论文的完整度很高。对于用大模型构建产品的开发者而言，关注点不在论文本身的数学推导，而在于一个事实：当底层架构在推理能力上获得这种级别的"免费"提升时，基于这些模型构建的 Agent 和自动化工作流的可靠性天花板也随之抬高。25%的等效算力提升，落到多步推理任务上，可能就是一个原本需要人工兜底的 Agent 流程变得真正可用的差距。等搭载了这项技术的新版 kimi-linear 开放后，值得在自己的 Agent 场景中跑一轮对比测试。