MiniMax M2.5：10B参数撬动80%SWE-Bench，独立开发者的低成本Agent时代来了

10B 参数能做什么

M2.5 的核心竞争力藏在一个反直觉的设计里：激活参数极小，但 Agent 能力不弱。横向对比，GLM-5 激活 40B，Kimi K2.5 大约 50B，DeepSeek V3.2 大约 30B，而 M2.5 只有 10B。参数小带来的好处是连锁反应——推理速度达到 100 TPS，几乎是主流旗舰模型的两倍。

换算成成本：以 100 TPS 连续工作一小时，花费 1 美金；降到 50 TPS，只要 0.3 美金。按 7×24 不间断运行计算，一个 Agent 的月成本大约 200 美金。花一万美金，就能同时跑四个永不休息的 Agent。

这个数字对一人公司的意义很直接：以前你只能让 Agent 跑几个小时完成特定任务，现在可以让它作为一个常驻进程持续运转。

编程能力：不只是跑分

M2.5 相比上一代 M2.1 的进步集中在编程领域。SWE-Bench Verified 从此前的水平跃升到 80.2%，Multi-SWE-Bench 51.3% 拿了全行业第一。更值得关注的是效率提升：端到端完成 SWE-Bench 任务从 M2.1 的 31.3 分钟降到 22.8 分钟，快了 37%，同时每个任务的 token 消耗从 3.72M 降到 3.52M。变快了，还变省了。

一个很实际的细节是 M2.5 在不同编程客户端上的泛用性。在 Droid 上跑 SWE-Bench 得分 79.7（Opus 4.6 是 78.9），在 OpenCode 上是 76.1（Opus 4.6 是 75.9）。这意味着你不必绑定在某个闭源的编程脚手架上。

OpenCode 是 Claude Code 的开源平替，安装简单，上手容易，而且目前内置的 MiniMax M2.5 限时免费，连 API 都不需要配置，开箱即用。对于想低成本尝试 AI 编程的独立开发者，这是一个值得试的入口。

工具调用：Agent 的核心能力

Agent 的价值取决于它能调用多少工具、调用得多准。M2.5 在多项工具调用指标上都处于头部水平。搜索是 Agent 最常用的工具，MiniMax 为此专门建了一个评测集 RISE（Realistic Interactive Search Evaluation），测的是真实专业任务上的搜索能力。

相比 M2.1，M2.5 在 BrowseComp、Wide Search、RISE 等多项任务上用更少的搜索轮次拿到了更好的结果，轮次消耗减少约 20%。模型学会了用更短的路径逼近答案——这对按 token 计费的场景直接省钱。

海外开发者 Tom Osman 的用法是一个典型案例。他在 Telegram、Slack、WhatsApp、iMessage 上都部署了 Agent，通过语音或文字随时下指令。一个工作日里，Agent 并行处理网站分析、信息调研、博客撰写、元数据更新、社交帖子起草、邮件发送，他只需要在不同 Agent 之间切换对话。他用的是每月 10 美金的 Coding Plan，用量远没到上限。

本地部署：不依赖云端

小龙虾（Claw）的作者 Peter 把 Opus 作为主力模型，MiniMax 作为 fallback。当 Opus 的 token 额度用完，系统自动切换到 MiniMax 继续跑。更关键的是，他在自己的 2 台 Mac Studio 上用 MiniMax 跑本地推理，完全不依赖模型厂商的套餐。

能在本地跑起来，靠的就是 10B 的激活参数。这个尺寸在消费级硬件上可以流畅运行，而大多数旗舰模型的激活参数是它的 3 到 5 倍，本地部署的门槛高得多。对于一人公司来说，本地推理意味着零边际成本和零停机风险。

从工具到同事

MiniMax 给 M2.5 的定位是「真实世界的好同事」。这个说法背后的逻辑是：当 Agent 从偶尔调用的工具变成 7×24 小时持续运转的常驻进程，对模型的要求就从「单次任务做得多好」变成了「能力够不够用、速度快不快、成本扛不扛得住」三个维度的综合考量。

未来几年算力供给是线性增长，需求是指数增长，token 只会越来越稀缺。在这个背景下，10B 激活参数的模型提供了一条现实路径：不是追求单次推理的极致效果，而是让 Agent 在经济上真正跑得起、跑得久。

对于正在搭建自动化工作流的独立开发者，建议现在就试试 OpenCode + MiniMax M2.5 的组合——零配置、免费额度、本地可跑，先把 Agent 持续运转的架构搭起来，这件事本身比选哪个模型更重要。