先看硬实力:GLM-5 到底强在哪

GLM-5 采用 744B 参数(40B 激活)的 MoE 架构,相比 GLM-4.7 的 355B(32B 激活),参数量翻了一倍,但推理成本并没有等比例增长。

跑分层面,几个关键数据值得关注:

  • Artificial Analysis 排名:仅次于 GPT-5.3-codex 和 Claude Opus 4.6,开源模型第一
  • BrowseComp 基准(衡量 Agent 网络搜索能力):GLM-5 得分 75.9,超过普通 GPT-5.2 约 10 个点,逼近 GPT-5.2 Pro 的 77.9
  • SWE-bench(真实仓库代码修改)、Terminal-Bench 2.0(终端环境 Agent 能力)、τ²-Bench(工具调用)、MCP-Atlas(MCP 能力):均接近 Opus 4.5 水平,差距只在临门一脚
  • Long-horizon 基准(长链条复杂任务):充分体现了 GLM-5 在长程多步规划和执行上的能力,与 Opus 4.5 对标

还有一个容易被忽略的优点:GLM-5 非常省 token。用过 Opus 4.6 的人都知道那个上下文消耗量有多夸张,而 GLM-5 干活精准,token 效率堪比 GPT-5.3-codex。这在实际开发中直接影响成本和体验。

价格:便宜到让人不好意思

先说 API 价格。Opus 4.5 和 4.6 的定价是每百万 token 输入 $5、输出 $25,而 GLM-5 大约只有 Claude 的七分之一。

再说包月套餐(Coding Plan)。GLM-5 的 Coding 套餐价格是 Claude Max 的三分之二,token 额度却是其三倍。火爆到什么程度?前两档套餐额度直接被抢空了——没错,一个包月套餐,被抢空了。

这里不得不停下来想一个问题:当一个能力接近 Opus 4.5 的模型,价格只有它的几分之一,还开源,这对独立开发者意味着什么?

实战:Claude Code + GLM-5 怎么用

在 Claude Code 中接入 GLM-5 非常简单。智谱提供了一个 Coding Tool Helper 工具,打开终端执行:

npx /coding-helper

登录后按提示配置即可。目前支持 Claude Code、OpenCode、Crush、Factory Droid 等编码工具。配置完成后正常运行 Claude Code,就能使用 GLM-5 作为底层模型。

这个组合的核心优势在于:无需魔法,国内直连,门槛最低的 AI Coding 体验。

Case 1:全平台内容分发 Chrome 扩展

第一个实战案例是开发一个全平台内容分发工具。做自媒体的人都知道,文章写完只是开始,同步分发到各平台才是真正的体力活——编辑器不统一、格式丢失、图片无法迁移,这些问题让人崩溃。

给 GLM-5 的 Prompt 非常简洁:

开发一个全平台内容分发 Chrome 扩展,实现:点击插件后进入内容分发页面(独立页面,非小 popup)输入微信公众号链接,自动提取标题、封面、正文(保留格式)右侧大尺寸富文本编辑器展示和编辑内容底部平台复选列表(小红书、知乎等)点击同步后,打开目标平台发布页面,自动填充内容

GLM-5 的表现:

  • 主动提供关键设计方案供选择,而非直接动手
  • 给出超详细的开发规划,执行速度很快
  • 整体完成度和实用性很好,后续添加分发平台只用了两轮对话

但遇到了一个棘手的 Bug:公众号正文提取内容不全,图片也获取不到。GLM-5 改了两三轮没解决,换 Opus 4.5 也没搞定,最后 GPT-5.3-codex 一轮完成。

这个案例很真实地反映了 GLM-5 的定位:整体规划和方案设计能力对标 Opus 4.5,但在某些棘手 Bug 的精准修复上,跟 GPT-5.3-codex 还有差距。 不过换个角度想——90% 的开发工作本来就不是在修复那种极端 Bug,而是在做规划、搭架构、写功能。

Case 2:斗地主记牌器——跟模拟器打通

这个案例更有意思,因为它不是常规的前端网页开发,涉及到屏幕截图、图像识别、跨应用交互。

Prompt 只有一句话:"我正在我的电脑上玩欢乐斗地主 PC 模拟器版本,帮我写一个记牌插件。"

GLM-5 的处理过程展现了很强的 Agent 能力:

  1. 主动澄清需求:识别方式(自动/手动)、技术路线、功能范围,逐一确认
  2. 双模式并行开发:手动模式一轮完成,自动识别模式需要迭代
  3. 自主添加调试功能:遇到 Bug 时,GLM-5 主动加入调试模块,截图展示勾选区域和 OCR 结果,帮助定位问题出在截图环节还是识别环节
  4. 最终方案:为每张扑克牌上传模板图片,对游戏截图进行灰度处理和二值化,再用模板匹配实现识别

为了验证方案是否最优,同时让 Opus 4.6 和 GPT-5.3-codex 各出一套方案——结果三个模型给出的方案一模一样。

最终效果:除了大小王(灰度处理后颜色信息丢失导致无法区分)外,所有牌都能准确识别,连续出顺子也能精准捕获。整个开发过程不到两个小时。

Case 3:复刻 QQ 农场,13 万 token 搞定

GLM-5 还被用来复刻了一个 QQ 农场小游戏,包含作物成熟机制(不收获会枯萎)、随机杂草和虫害等细节。数据存储方面,GLM-5 选择了浏览器 LocalStorage——这是前端单机游戏的典型存储方案,非常适合轻量级项目。

整个项目消耗的 token 量:大约 13 万。这个效率确实惊人。

Case 4:封装 Skills 的能力

用 yt-dlp 测试 GLM-5 封装 Skills 的能力:

帮我把这个开源工具 yt-dlp 打包成一个 Skill,只要我后续给出视频链接,就可以帮我下载视频。

GLM-5 一轮对话就完成了封装,B 站视频直接下载成功。在下载 YouTube 视频时,GLM-5 精准地指出需要提供 Cookies 才能下载。作为对比,当初用 Opus 4.5 封装同样的 Skill,对话了六七轮、改了 N 版,始终没提到 Cookies 这个关键信息,一直报错。

这个细节很能说明问题:GLM-5 在理解任务上下文和预判依赖条件方面,确实有了质的提升。

200K 上下文窗口和模型定位

GLM-5 的上下文窗口与 GLM-4.7 一致,目前是 200K 输入、128K 输出。虽然不是最大的窗口,但配合省 token 的特性,实际开发中的体验并不逊色。

客观地总结一下 GLM-5 在 Coding 领域的定位:

  • 规划与架构能力:对标 Opus 4.5
  • Bug 修复精准度:接近 Opus 4.5 和 GPT-5.2-codex,但离 GPT-5.3-codex 有差距
  • 长链条任务执行:与 Opus 4.5 同一梯队
  • Token 效率:非常优秀,与 GPT-5.3-codex 相当
  • 价格:约为 Claude 的七分之一

对独立开发者的实际意义

如果你已经在用 ChatGPT Pro 或 Claude Max,GLM-5 不一定能完全替代它们,尤其是遇到极端复杂的 Bug 时。但如果你正在寻找一个低成本、无门槛的 AI 编程方案,GLM-5 + Claude Code 的组合目前是国内最优解。

更重要的是,GLM-5 是开源的。这意味着企业可以私有化部署,独立开发者可以在自己的工作流中深度集成,不受 API 可用性和政策变动的限制。

半年前,国产模型在 Coding 领域和 OpenAI、Anthropic 之间是"让人绝望的代差"。现在这个差距已经缩小到"可以追赶的范围"。当一个开源模型能做到这一步,值得每个 AI 编程实践者认真试一试。

最后留一个问题:当 AI 编程的门槛降到几乎为零,真正决定你能做出什么产品的,还会是技术能力吗?