国产大模型密集更新，独立开发者该关注参数背后的工程方案与成本结构

参数规模与性价比之争

把几家旗舰模型的参数放在一起看，格局就清楚了：

MiniMax M2.5：总参数 230B，激活参数 10B
DeepSeek 新模型：约 285B（大模型尚未训完，有消息称完整版将达 1.5T）
智谱 GLM 5：总参数 744B，激活参数 40B
Kimi K2.5：总参数 1.04T，激活参数 32B

MiniMax 和 DeepSeek 显然都在走极致性价比路线。MiniMax M2.5 的激活参数仅 10B（M2 系列一直如此），是第一梯队中参数规模最小的旗舰模型。这意味着两件事：私有化部署门槛低，推理效率高。而且 M2.5 没有涨价，对预算有限的独立开发者和小团队来说，这个定价策略很友好。

MiniMax Forge：一套值得参考的 Agent RL 训练框架

比模型本身更有启发的，是 MiniMax 同步发布的内部 RL 框架 Forge 的技术博客。这篇文章基本把他们做 Agent 强化学习训练的工业级方案讲透了，几个核心设计思路对搭建 Agent 的开发者很有参考价值。

架构解耦：在训推引擎和 Agent 之间加了一层 inference server。引擎侧只处理 token 级数据，严格保证推理和训练的 token 一致性；面向 Agent 的接口则是标准的 OpenAI 兼容格式，Agent 只需关心环境交互和上下文管理。这个设计很实用——接入任意 Agent 框架都不需要改底层，模型在不同工具链上的泛化也有了基础。

工程优化：几个关键 trick 包括 RL 异步调度策略和树状合并训练样本，解决的是大规模 Agent 训练中的效率瓶颈。

算法层面：核心使用自研的 CISPO 算法，做混合域统一训练——把 Reasoning、General QA 和 Agent 任务混在一起训练，规避多阶段训练常见的负迁移问题。Reward 设计上有几个细节值得注意：

加入过程奖励，惩罚语言混用和工具调用错误
引入任务完成时间奖励，鼓励 Agent 并行执行以提速
对长任务使用 Reward-to-go 降低方差

实际能力：Coding 和 Agent 是重点

能力层面，MiniMax M2.5 重点发力 Coding 和 Agent 场景。SWE-Bench Verified 拿到 80.2%，更关键的是速度和成本——推理吞吐量超过 100 tokens/秒，折算下来使用成本大约 1 元/小时。

这个数字对想用 AI 辅助编程或搭建自动化工作流的开发者来说很有吸引力。相比之下，很多同级别模型的 API 调用成本要高出数倍。

这波国产模型的集中更新，竞争焦点已经从单纯的参数规模转向了工程落地能力和性价比。对于独立开发者而言，与其等"最强模型"，不如根据自己的场景——是需要私有部署、低成本推理，还是极限编码能力——选一个合适的先跑起来。Forge 框架的设计思路，即使不做模型训练，在设计自己的 Agent 架构时也值得借鉴。