MiniMax 2.5 vs GLM 5：一个提示词复刻 Notion，谁的代码能力更强？

测试设计：用一个提示词复刻 Notion

测试环境统一选用 Claude Code。MiniMax 2.5 使用官方的 Coding Plan 接入，GLM 5 则通过 ZenMux 聚合平台接入（因为 GLM 官方的 Coding Plan Lite 版还没开放 GLM 5 权限）。

提示词的设计思路很有意思：只说"复刻 Notion"，不详细描述 Notion 的 UI 长什么样。为什么这么做？因为如果一个模型真的"理解"Notion，它应该自己知道该做成什么样子。提示词里只加了一些功能性约束，重点考察的是模型的指令遵循能力和代码正确率。

同样的提示词跑下来，两个模型的表现差距就已经很明显了：

MiniMax 2.5：耗时 28 分钟，消耗约 60K Tokens
GLM 5：耗时超过 80 分钟，消耗约 150K Tokens。而且在输出 100K Tokens 时触发了 Claude Code 的上下文自动压缩机制，直接卡住了，中断后重新运行才跑完

光从效率来看，MiniMax 2.5 用不到三分之一的时间和不到一半的 Token 就完成了任务。这对实际开发意味着什么？更低的 API 成本和更快的迭代速度。

两个模型都没有给出预期中 1:1 还原的 Notion 页面——这多半是因为提示词中没有明确描述 UI 细节，模型没有触发内置的 UI 美化逻辑。但在功能层面，差异已经出现了：

如果只看列表页，GLM 5 在功能完整度上略胜一筹。但别急着下结论，真正拉开差距的地方在后面。

Notion 的核心体验在编辑器：斜杠命令、Block 拖拽、数据保存、富文本输入。这才是考验一个模型"写复杂交互代码"能力的地方。

MiniMax 2.5 的表现：

GLM 5 的表现就完全是另一个故事了，编辑器几乎全面崩溃：

你会发现，列表页上那点功能优势，在编辑器这个核心战场上被彻底逆转了。一个不能输入中文的编辑器，对中文用户来说基本等于不可用。

回溯到几个月前，MiniMax 2.1 和 GLM 4.7 的对比中，GLM 的表现是更好的。但版本迭代之后，局面完全反转——MiniMax 2.5 无论在执行速度、指令遵循度还是代码正确率上，都明显领先于 GLM 5。

这其实给我们一个很重要的提醒：不要对任何一个模型形成路径依赖。国产模型的迭代速度非常快，几个月前的结论很可能已经过时。对于用 AI 辅助编程的独立开发者来说，定期用自己的实际项目做横向测试，远比看别人的 benchmark 跑分更有参考价值。

有评测博主甚至认为 MiniMax 2.5 在很多方面已经可以追平 Claude Opus 4.6。如果这个判断成立，那意味着国产模型在 Coding 场景下正在快速缩小与第一梯队的差距。

对于追求高性价比的一人公司来说，一个值得持续关注的问题是：当国产模型的 Coding 能力逼近甚至追平海外顶级模型时，你的开发工作流会因此发生什么变化？