参数规模与性价比之争

把几家旗舰模型的参数放在一起看,格局就清楚了:

  • MiniMax M2.5:总参数 230B,激活参数 10B
  • DeepSeek 新模型:约 285B(大模型尚未训完,有消息称完整版将达 1.5T)
  • 智谱 GLM 5:总参数 744B,激活参数 40B
  • Kimi K2.5:总参数 1.04T,激活参数 32B

MiniMax 和 DeepSeek 显然都在走极致性价比路线。MiniMax M2.5 的激活参数仅 10B(M2 系列一直如此),是第一梯队中参数规模最小的旗舰模型。这意味着两件事:私有化部署门槛低,推理效率高。而且 M2.5 没有涨价,对预算有限的独立开发者和小团队来说,这个定价策略很友好。

MiniMax Forge:一套值得参考的 Agent RL 训练框架

比模型本身更有启发的,是 MiniMax 同步发布的内部 RL 框架 Forge 的技术博客。这篇文章基本把他们做 Agent 强化学习训练的工业级方案讲透了,几个核心设计思路对搭建 Agent 的开发者很有参考价值。

架构解耦:在训推引擎和 Agent 之间加了一层 inference server。引擎侧只处理 token 级数据,严格保证推理和训练的 token 一致性;面向 Agent 的接口则是标准的 OpenAI 兼容格式,Agent 只需关心环境交互和上下文管理。这个设计很实用——接入任意 Agent 框架都不需要改底层,模型在不同工具链上的泛化也有了基础。

工程优化:几个关键 trick 包括 RL 异步调度策略和树状合并训练样本,解决的是大规模 Agent 训练中的效率瓶颈。

算法层面:核心使用自研的 CISPO 算法,做混合域统一训练——把 Reasoning、General QA 和 Agent 任务混在一起训练,规避多阶段训练常见的负迁移问题。Reward 设计上有几个细节值得注意:

  • 加入过程奖励,惩罚语言混用和工具调用错误
  • 引入任务完成时间奖励,鼓励 Agent 并行执行以提速
  • 对长任务使用 Reward-to-go 降低方差

实际能力:Coding 和 Agent 是重点

能力层面,MiniMax M2.5 重点发力 Coding 和 Agent 场景。SWE-Bench Verified 拿到 80.2%,更关键的是速度和成本——推理吞吐量超过 100 tokens/秒,折算下来使用成本大约 1 元/小时。

这个数字对想用 AI 辅助编程或搭建自动化工作流的开发者来说很有吸引力。相比之下,很多同级别模型的 API 调用成本要高出数倍。

这波国产模型的集中更新,竞争焦点已经从单纯的参数规模转向了工程落地能力和性价比。对于独立开发者而言,与其等"最强模型",不如根据自己的场景——是需要私有部署、低成本推理,还是极限编码能力——选一个合适的先跑起来。Forge 框架的设计思路,即使不做模型训练,在设计自己的 Agent 架构时也值得借鉴。