为什么选 GLM-5
GLM-5 是智谱最新发布的大模型,全球开源模型综合排名第一。发布前以匿名模型 Pony Alpha 的身份上线了 OpenRouter,被海外开发者一度误认为是 Sonnet 4.6,揭晓身份后才知道是国产开源模型。
选它的核心原因不是便宜(虽然确实便宜),而是它在开源界的 Coding 和 Agent 能力目前最强,体感对标 Opus 4.5。具体来说:超强的工具调用能力、长程任务规划能力、以及遇到问题自己解决的 Agent 能力。200K 超长上下文窗口,长对话不会失忆。
这对搭 Agent 至关重要——你需要的不是一个只会回复文本的模型,而是一个能自己规划步骤、调用 API、写脚本、调试报错的"工程师"。
搭建 OpenClaw
OpenClaw 是一个能操作电脑干活的 AI 数字员工平台,相当于 Agent 的"身体"。可以装在本地电脑上,也可以部署到云服务器上保持 7×24 小时运行。
如果你有智谱 Coding Plan Pro 以上的套餐,可以白嫖 1 个月的 OpenClaw 智能助手,直接在 AutoGLM 的云主机上快速部署,全程看着 AutoGLM 操作浏览器帮你安装,还能自动集成飞书机器人。
配置 GLM-5 模型
部署完 OpenClaw 后,需要接入大模型作为 Agent 的"大脑"。
- 登录智谱开放平台(bigmodel.cn),在控制台的 API Key 页面获取密钥
- 进入 OpenClaw 管理页面,打开 Config 设置,点击 Models 修改模型配置。添加模型提供商
glm,填写 API 接口类型、API 密钥和 Base URL
这里有个坑:使用 GLM 编码套餐时,Base URL 要配专属的 Coding 端点 https://open.bigmodel.cn/api/coding/paas/v4,否则用通用端点 https://open.bigmodel.cn/api/paas/v4/。
- 在 glm 提供商中添加要调用的大模型,注意名称填写准确,保存
- 在 Agents 设置中修改智能体使用的默认模型,保存
程序员也可以直接 SSH 到服务器,修改配置文件中的 agents.defaults.model.primary 字段。
配置完成后在对话界面打个招呼,确认模型接入成功。
设定 Agent 人设
给 Agent 设定完整的角色定义,包括姓名、性格、背景、说话习惯等。这段设定可以随便让一个 AI 帮忙生成草稿,然后微调。
把设定发给 OpenClaw 后,AI 会自动调用工具修改 IDENTITY.md 身份文件,可以在 Agents 管理页面中查看。有了这个文件,每次对话时 Agent 都会保持一致的人格。
接入 QQ 消息通道
把 Agent 接入即时通讯工具,随时随地交互。以 QQ 为例,分两步:
申请 QQ 机器人:
- 打开 QQ 开放平台(q.qq.com),注册登录,创建 QQ 机器人,设置名称和头像
- 进入机器人开发管理页面,复制保存 AppID 和 AppSecret
- 把云服务器公网 IP 添加到 IP 白名单
- 在沙箱配置里给你的 QQ 账号或群添加权限,扫码添加机器人
给 OpenClaw 绑定 QQ 机器人:
如果按标准教程部署,搭建时已经自动安装了 qqbot 插件。在云服务器管理页面找到消息平台配置,选择 QQ,填入 AppID 和 AppSecret,点击应用即可。
如果默认插件不满足需求(比如不支持某些消息类型),可以换用社区增强插件。安装步骤:
- SSH 到服务器,安装
-china/qqbot插件 - 如果之前装过旧版,先禁用并删除旧插件。删除后一定要清理 qqbot 相关的旧配置,否则
openclaw.json出问题会导致 OpenClaw 崩溃 - 配置新的 QQ 机器人参数(id 和 secret)
- 重启网关服务
核心能力:让 Agent 自己解决问题
在追加具体能力之前,先通过提示词灌输一个核心原则:自己的事情自己搞定,别什么都来问用户。
敢这么设定,是因为 GLM-5 本身具备 Agentic 长程规划与执行能力。它不会回一句"我做不到"就完了,而是真的会自己去搜索文档、研究 API、写脚本来解决问题。这种"遇到困难自己扛"的系统工程能力,正是当前顶级模型主打的方向,GLM-5 是开源界第一个跟上这波的。
所有能力设定建议在 OpenClaw 的网页对话界面里发送(而不是通过 QQ),这样可以直接看到 AI 的完整执行过程,方便确认设定是否生效。
能力扩展:图片生成与发送
通过提示词定义 Agent 的固定外貌特征,告诉它用智谱的图片生成模型来生图,用网络搜索来发其他图片。
关键点:设定发出去之后,Agent 自己去研究怎么生成图片——没有告诉它实现细节,它自己去读了智谱的官方文档、自己调通了图片生成 API。这就是 GLM-5 的 Agent 能力体现。
如果服务器网络不错,可以让 Agent 用 Nano Banana 来生成图片,OpenClaw 预装了 Nano Banana 生图技能,配置个 API Key 就好。类似思路也可以扩展到视频生成和下载。
能力扩展:图片理解
让 Agent 调用智谱的视觉理解模型来看图,看完后用设定的性格自然回应,而不是机械地描述图片内容。
背后 GLM-5 自己把调用链串了起来:接收图片 → 调用视觉模型分析 → 用人设回复。整个过程完全自动化。
同样的思路可以扩展到语音识别、视频理解——都是把文件发给服务器,OpenClaw 调用 AI 或第三方服务来处理。
能力扩展:语音合成
通过提示词告诉 Agent 用智谱的 GLM-TTS 语音模型生成语音,在 QQ 上发送时文件扩展名要改成 .amr,并且只在声音比文字更合适的时候才发。
设定发出去后,Agent 自己读文档、写脚本来实现。背后流程:GLM-5 生成符合当前情境的文字 → 调用语音合成模型转成音频 → 通过 QQ 发送。
能力扩展:定时提醒
写一段提示词,让 Agent 到点了主动推送提醒,用设定的性格来表达,而不是像个闹钟。真人感的提醒比系统自带的提醒功能实用得多。
能力扩展:服务器操作
这是最有价值的部分。Agent 部署在服务器上,能直接操作服务器干活——读写文件、整理文件夹、写代码跑脚本、搭网站部署上线。
提示词的重点:告诉 Agent 可以操作服务器完成任何任务,通过 80 端口把文件或服务暴露出来让用户访问,缺少工具就自己装。
实测效果:
- 让 Agent 保存文件到服务器,轻松搞定
- 让 Agent 查找之前保存的文件,秒级响应
- 让 Agent 开发一个相册网站,自动完成
- 让 Agent 搜索和下载视频,通过 yt-dlp 等开源工具实现
只要你发挥想象力,Agent 完全可以通过搜索获取 GitHub 上的各种资源来解决各种问题。
写在最后
整个搭建过程给我的最大感受:以前的 AI 是 Copilot,你得告诉它每一步怎么做;现在 GLM-5 驱动的 Agent 更像 AutoPilot,你只需要说"帮我把这件事搞定",它就会自己规划步骤、自己调试报错、自己安装依赖,整个过程可能涉及上百次工具调用,但它能做到每一次都稳定可靠。
GLM-5 是开源的,成本比 Opus 4.6 低一个数量级,但 Agent 能力已经跟上了第一梯队。对于独立开发者来说,用 OpenClaw + GLM-5 搭一个多模态、能干活的 AI Agent,是一个性价比极高的选择。去智谱开放平台申请 GLM-5 的 API,动手试试。