芯片的两池困局

受制于芯片制造工艺,当前硬件存在一个根本性且反直觉的约束——两种物理实现完全不同的内存池并存:

  • 片上 SRAM:紧邻计算单元,访问速度极快,但容量极其有限
  • 片外 DRAM:容量充裕,但数据传输如同"通过细长吸管吸取",带宽成为瓶颈

在此基础上,还叠加了脉动阵列(systolic arrays)等架构设计细节和数值精度等工程约束,使得问题更加复杂。

当前最有价值的技术难题

围绕 LLM 的高频工作负载——推理预填充/解码、训练/微调等——设计最优物理基底,并以最佳的吞吐量、延迟和成本比进行内存与算力编排,堪称当下回报最高的智力挑战(参考 NVIDIA 4.6 万亿美元市值即可理解这一赛道的量级)。

核心目标只有一个:让 token 生成又多、又快、又便宜。

对 Agent 应用最关键的场景,恰恰最难实现

值得特别关注的是,对实际应用可能最重要的工作负载——长上下文、紧密循环的 Agent 推理解码——恰恰是当前两大技术路线都难以同时满足的:

  • HBM 优先路线(以 NVIDIA 为代表):擅长大批量吞吐,但在长上下文逐 token 解码时效率受限
  • SRAM 优先路线(以 Cerebras 为代表):延迟表现优异,但在大规模部署和长上下文支持上面临挑战

这意味着,当前构建高效 AI Agent 自动化工作流时,底层推理基础设施的选型不是简单的"选最强 GPU",而是要根据具体的 Agent 调用模式——上下文长度、循环频率、并发量——做针对性的架构匹配。

延伸思考

对于一人公司和 Agent 开发者而言,理解推理基础设施的底层约束至关重要。当你的 Agent 工作流涉及长上下文多轮推理时,推理成本和延迟将直接影响产品体验与商业可行性。关注 MatX 等新一代芯片公司的进展,可能为未来选择更高性价比的推理方案提供关键参考。