10B 参数能做什么

M2.5 的核心竞争力藏在一个反直觉的设计里:激活参数极小,但 Agent 能力不弱。横向对比,GLM-5 激活 40B,Kimi K2.5 大约 50B,DeepSeek V3.2 大约 30B,而 M2.5 只有 10B。参数小带来的好处是连锁反应——推理速度达到 100 TPS,几乎是主流旗舰模型的两倍。

换算成成本:以 100 TPS 连续工作一小时,花费 1 美金;降到 50 TPS,只要 0.3 美金。按 7×24 不间断运行计算,一个 Agent 的月成本大约 200 美金。花一万美金,就能同时跑四个永不休息的 Agent。

这个数字对一人公司的意义很直接:以前你只能让 Agent 跑几个小时完成特定任务,现在可以让它作为一个常驻进程持续运转。

编程能力:不只是跑分

M2.5 相比上一代 M2.1 的进步集中在编程领域。SWE-Bench Verified 从此前的水平跃升到 80.2%,Multi-SWE-Bench 51.3% 拿了全行业第一。更值得关注的是效率提升:端到端完成 SWE-Bench 任务从 M2.1 的 31.3 分钟降到 22.8 分钟,快了 37%,同时每个任务的 token 消耗从 3.72M 降到 3.52M。变快了,还变省了。

一个很实际的细节是 M2.5 在不同编程客户端上的泛用性。在 Droid 上跑 SWE-Bench 得分 79.7(Opus 4.6 是 78.9),在 OpenCode 上是 76.1(Opus 4.6 是 75.9)。这意味着你不必绑定在某个闭源的编程脚手架上。

OpenCode 是 Claude Code 的开源平替,安装简单,上手容易,而且目前内置的 MiniMax M2.5 限时免费,连 API 都不需要配置,开箱即用。对于想低成本尝试 AI 编程的独立开发者,这是一个值得试的入口。

工具调用:Agent 的核心能力

Agent 的价值取决于它能调用多少工具、调用得多准。M2.5 在多项工具调用指标上都处于头部水平。搜索是 Agent 最常用的工具,MiniMax 为此专门建了一个评测集 RISE(Realistic Interactive Search Evaluation),测的是真实专业任务上的搜索能力。

相比 M2.1,M2.5 在 BrowseComp、Wide Search、RISE 等多项任务上用更少的搜索轮次拿到了更好的结果,轮次消耗减少约 20%。模型学会了用更短的路径逼近答案——这对按 token 计费的场景直接省钱。

海外开发者 Tom Osman 的用法是一个典型案例。他在 Telegram、Slack、WhatsApp、iMessage 上都部署了 Agent,通过语音或文字随时下指令。一个工作日里,Agent 并行处理网站分析、信息调研、博客撰写、元数据更新、社交帖子起草、邮件发送,他只需要在不同 Agent 之间切换对话。他用的是每月 10 美金的 Coding Plan,用量远没到上限。

本地部署:不依赖云端

小龙虾(Claw)的作者 Peter 把 Opus 作为主力模型,MiniMax 作为 fallback。当 Opus 的 token 额度用完,系统自动切换到 MiniMax 继续跑。更关键的是,他在自己的 2 台 Mac Studio 上用 MiniMax 跑本地推理,完全不依赖模型厂商的套餐。

能在本地跑起来,靠的就是 10B 的激活参数。这个尺寸在消费级硬件上可以流畅运行,而大多数旗舰模型的激活参数是它的 3 到 5 倍,本地部署的门槛高得多。对于一人公司来说,本地推理意味着零边际成本和零停机风险。

从工具到同事

MiniMax 给 M2.5 的定位是「真实世界的好同事」。这个说法背后的逻辑是:当 Agent 从偶尔调用的工具变成 7×24 小时持续运转的常驻进程,对模型的要求就从「单次任务做得多好」变成了「能力够不够用、速度快不快、成本扛不扛得住」三个维度的综合考量。

未来几年算力供给是线性增长,需求是指数增长,token 只会越来越稀缺。在这个背景下,10B 激活参数的模型提供了一条现实路径:不是追求单次推理的极致效果,而是让 Agent 在经济上真正跑得起、跑得久。

对于正在搭建自动化工作流的独立开发者,建议现在就试试 OpenCode + MiniMax M2.5 的组合——零配置、免费额度、本地可跑,先把 Agent 持续运转的架构搭起来,这件事本身比选哪个模型更重要。