性能:几乎平手,局部反超
先看硬数据。在 SWE-Bench Verified 上,M2.5 拿到 80.2%,Opus 4.6 大约在 80%~80.8% 区间,两者基本持平。部分子任务 M2.5 甚至反超,比如 Droid(79.7 vs 78.9)和 OpenCode(76.1 vs 75.9)。在 Multi-SWE-Bench 上,M2.5 以 51.3% 拿下第一,高于 Opus 的 50.3%。BrowseComp 和 tool use 两项,M2.5 分别拿到 76.3% 和 76.8%,同样领先。
速度方面,M2.5-Lightning 版本达到 100 tps,大约是主流前沿模型的两倍。在 SWE-Bench 上的任务完成时间为 22.8 分钟,和 Opus 的 22.9 分钟几乎一样,但 token 消耗更少,整体任务完成速度快 37%。上下文窗口支持 204.8K 到 1M tokens(取决于版本),Opus 为 1M。
M2.5 真正拉开差距的地方在 agentic 和 office 工作流——Excel、Word、PPT 操作、多软件协作、并行工具调用,这些场景下 token 效率更高。Opus 在稳定性、英文长文本生成和边缘情况推理上仍然略稳,但 M2.5 已经逼近"agent 无关性"——换句话说,对大多数 agent 任务而言,用谁差别不大了。
成本:这才是真正的故事
性能接近只是前提,成本差距才是决策依据。
- M2.5-Lightning:输入 $0.3/M tokens,输出 $2.4/M tokens
- M2.5 Standard:输入 $0.15/M tokens,输出 $1.2/M tokens(再砍一半)
- Opus 4.6:输入约 $5/M,输出约 $25/M
算一笔账:M2.5-Lightning 以 100 tps 跑一个小时,成本大约 $1。开 4 个实例全年不间断运行,总计约 $10k。而 Opus 的价格是 M2.5 的 16 到 20 倍以上。
这意味着什么?对一人公司或小团队来说,M2.5 让"7×24 小时跑 Agent"从奢侈品变成了日用品。用 Opus 做同样的事情,预算要翻一个数量级。
用 OpenClaw 把成本压到接近零
光有便宜的模型还不够,还需要一个足够轻量的 Agent 框架来承载。OpenClaw 是一个开源 AI Agent 框架,原生支持 MiniMax OAuth,一键登录即可接入,不需要手动管理 API key。
具体部署步骤:
- 注册 MiniMax 平台(platform.minimax.io),领取 Coding Plan 免费额度或低价试用包(新用户通常有赠送 tokens)
- 一键部署 OpenClaw:终端运行安装脚本或
npm install -g openclaw,支持通过 Telegram、WhatsApp 等聊天界面驱动 Agent,覆盖清理邮件、日历管理、浏览器操作、订票等日常任务 - 自托管方案:本地用 Docker 跑,零云费只付电费;或者扔到低配 VPS 上,每月几美元,结合 MiniMax 的免费额度,日常使用基本零成本
几个实用技巧:开发测试阶段用 M2.5-Lightning,额度用完切 Standard;开启 caching 节省 token;即使重度使用购买低价订阅,仍然远低于 Claude 的开销。社区里已经有不少人用 MiniMax + OpenClaw 搭建个人助手和语音 Agent,日常任务完全免费运行。
时机判断
M2.5 采用 MIT 许可,开源权重,支持本地部署和微调。这一点的战略意义不亚于价格本身——它意味着你不会被锁定在任何一家平台上。
从市场结构看,Agent 基础设施这一层正在经历快速的成本下降。模型能力趋同、价格战白热化,真正的壁垒不在模型选择上,而在于谁能最快把 Agent 工作流跑通并产生实际业务价值。现在用 M2.5 + OpenClaw 这样的组合,一个人就能以接近零成本搭建起 7×24 运转的自动化系统。不需要等条件更成熟——成本曲线已经到了动手的临界点。