测试设计:用一个提示词复刻 Notion
测试环境统一选用 Claude Code。MiniMax 2.5 使用官方的 Coding Plan 接入,GLM 5 则通过 ZenMux 聚合平台接入(因为 GLM 官方的 Coding Plan Lite 版还没开放 GLM 5 权限)。
提示词的设计思路很有意思:只说"复刻 Notion",不详细描述 Notion 的 UI 长什么样。为什么这么做?因为如果一个模型真的"理解"Notion,它应该自己知道该做成什么样子。提示词里只加了一些功能性约束,重点考察的是模型的指令遵循能力和代码正确率。
第一关:执行效率
同样的提示词跑下来,两个模型的表现差距就已经很明显了:
- MiniMax 2.5:耗时 28 分钟,消耗约 60K Tokens
- GLM 5:耗时超过 80 分钟,消耗约 150K Tokens。而且在输出 100K Tokens 时触发了 Claude Code 的上下文自动压缩机制,直接卡住了,中断后重新运行才跑完
光从效率来看,MiniMax 2.5 用不到三分之一的时间和不到一半的 Token 就完成了任务。这对实际开发意味着什么?更低的 API 成本和更快的迭代速度。
第二关:页面功能完整度
两个模型都没有给出预期中 1:1 还原的 Notion 页面——这多半是因为提示词中没有明确描述 UI 细节,模型没有触发内置的 UI 美化逻辑。但在功能层面,差异已经出现了:
- MiniMax 2.5:页面朴实无华,新建按钮正常可用,但没有删除按钮,搜索功能不可用
- GLM 5:页面视觉效果较差,但新建、删除、搜索三个核心功能都能正常工作
如果只看列表页,GLM 5 在功能完整度上略胜一筹。但别急着下结论,真正拉开差距的地方在后面。
第三关:编辑器——真正的硬仗
Notion 的核心体验在编辑器:斜杠命令、Block 拖拽、数据保存、富文本输入。这才是考验一个模型"写复杂交互代码"能力的地方。
MiniMax 2.5 的表现:
- 没有做居中排版,但整体可用
- 文字输入正常,Block 拖拽正常,斜杠命令可以触发
- 部分样式有对齐问题,但基本功能完整
- 甚至能正常解析粘贴进去的 Markdown 文档
GLM 5 的表现就完全是另一个故事了,编辑器几乎全面崩溃:
- 光标方向是反的,始终停在第一个字符前面
- 无法输入中文,只能输入拉丁字母
- Block 拖拽功能不可用
- 没有斜杠命令
你会发现,列表页上那点功能优势,在编辑器这个核心战场上被彻底逆转了。一个不能输入中文的编辑器,对中文用户来说基本等于不可用。
攻守易形:国产模型的 Coding 能力变化比想象中快
回溯到几个月前,MiniMax 2.1 和 GLM 4.7 的对比中,GLM 的表现是更好的。但版本迭代之后,局面完全反转——MiniMax 2.5 无论在执行速度、指令遵循度还是代码正确率上,都明显领先于 GLM 5。
这其实给我们一个很重要的提醒:不要对任何一个模型形成路径依赖。国产模型的迭代速度非常快,几个月前的结论很可能已经过时。对于用 AI 辅助编程的独立开发者来说,定期用自己的实际项目做横向测试,远比看别人的 benchmark 跑分更有参考价值。
有评测博主甚至认为 MiniMax 2.5 在很多方面已经可以追平 Claude Opus 4.6。如果这个判断成立,那意味着国产模型在 Coding 场景下正在快速缩小与第一梯队的差距。
对于追求高性价比的一人公司来说,一个值得持续关注的问题是:当国产模型的 Coding 能力逼近甚至追平海外顶级模型时,你的开发工作流会因此发生什么变化?