用 OpenClaw + GLM-5 从零搭建多模态 AI Agent：部署到实战的完整路径

为什么选 GLM-5

GLM-5 是智谱最新发布的大模型，全球开源模型综合排名第一。发布前以匿名模型 Pony Alpha 的身份上线了 OpenRouter，被海外开发者一度误认为是 Sonnet 4.6，揭晓身份后才知道是国产开源模型。

选它的核心原因不是便宜（虽然确实便宜），而是它在开源界的 Coding 和 Agent 能力目前最强，体感对标 Opus 4.5。具体来说：超强的工具调用能力、长程任务规划能力、以及遇到问题自己解决的 Agent 能力。200K 超长上下文窗口，长对话不会失忆。

这对搭 Agent 至关重要——你需要的不是一个只会回复文本的模型，而是一个能自己规划步骤、调用 API、写脚本、调试报错的"工程师"。

搭建 OpenClaw

OpenClaw 是一个能操作电脑干活的 AI 数字员工平台，相当于 Agent 的"身体"。可以装在本地电脑上，也可以部署到云服务器上保持 7×24 小时运行。

如果你有智谱 Coding Plan Pro 以上的套餐，可以白嫖 1 个月的 OpenClaw 智能助手，直接在 AutoGLM 的云主机上快速部署，全程看着 AutoGLM 操作浏览器帮你安装，还能自动集成飞书机器人。

配置 GLM-5 模型

部署完 OpenClaw 后，需要接入大模型作为 Agent 的"大脑"。

登录智谱开放平台（bigmodel.cn），在控制台的 API Key 页面获取密钥
进入 OpenClaw 管理页面，打开 Config 设置，点击 Models 修改模型配置。添加模型提供商 glm，填写 API 接口类型、API 密钥和 Base URL

这里有个坑：使用 GLM 编码套餐时，Base URL 要配专属的 Coding 端点 https://open.bigmodel.cn/api/coding/paas/v4，否则用通用端点 https://open.bigmodel.cn/api/paas/v4/。

在 glm 提供商中添加要调用的大模型，注意名称填写准确，保存
在 Agents 设置中修改智能体使用的默认模型，保存

程序员也可以直接 SSH 到服务器，修改配置文件中的 agents.defaults.model.primary 字段。

配置完成后在对话界面打个招呼，确认模型接入成功。

设定 Agent 人设

给 Agent 设定完整的角色定义，包括姓名、性格、背景、说话习惯等。这段设定可以随便让一个 AI 帮忙生成草稿，然后微调。

把设定发给 OpenClaw 后，AI 会自动调用工具修改 IDENTITY.md 身份文件，可以在 Agents 管理页面中查看。有了这个文件，每次对话时 Agent 都会保持一致的人格。

接入 QQ 消息通道

把 Agent 接入即时通讯工具，随时随地交互。以 QQ 为例，分两步：

申请 QQ 机器人：

打开 QQ 开放平台（q.qq.com），注册登录，创建 QQ 机器人，设置名称和头像
进入机器人开发管理页面，复制保存 AppID 和 AppSecret
把云服务器公网 IP 添加到 IP 白名单
在沙箱配置里给你的 QQ 账号或群添加权限，扫码添加机器人

给 OpenClaw 绑定 QQ 机器人：

如果按标准教程部署，搭建时已经自动安装了 qqbot 插件。在云服务器管理页面找到消息平台配置，选择 QQ，填入 AppID 和 AppSecret，点击应用即可。

如果默认插件不满足需求（比如不支持某些消息类型），可以换用社区增强插件。安装步骤：

SSH 到服务器，安装 -china/qqbot 插件
如果之前装过旧版，先禁用并删除旧插件。删除后一定要清理 qqbot 相关的旧配置，否则 openclaw.json 出问题会导致 OpenClaw 崩溃
配置新的 QQ 机器人参数（id 和 secret）
重启网关服务

核心能力：让 Agent 自己解决问题

在追加具体能力之前，先通过提示词灌输一个核心原则：自己的事情自己搞定，别什么都来问用户。

敢这么设定，是因为 GLM-5 本身具备 Agentic 长程规划与执行能力。它不会回一句"我做不到"就完了，而是真的会自己去搜索文档、研究 API、写脚本来解决问题。这种"遇到困难自己扛"的系统工程能力，正是当前顶级模型主打的方向，GLM-5 是开源界第一个跟上这波的。

所有能力设定建议在 OpenClaw 的网页对话界面里发送（而不是通过 QQ），这样可以直接看到 AI 的完整执行过程，方便确认设定是否生效。

能力扩展：图片生成与发送

通过提示词定义 Agent 的固定外貌特征，告诉它用智谱的图片生成模型来生图，用网络搜索来发其他图片。

关键点：设定发出去之后，Agent 自己去研究怎么生成图片——没有告诉它实现细节，它自己去读了智谱的官方文档、自己调通了图片生成 API。这就是 GLM-5 的 Agent 能力体现。

如果服务器网络不错，可以让 Agent 用 Nano Banana 来生成图片，OpenClaw 预装了 Nano Banana 生图技能，配置个 API Key 就好。类似思路也可以扩展到视频生成和下载。

能力扩展：图片理解

让 Agent 调用智谱的视觉理解模型来看图，看完后用设定的性格自然回应，而不是机械地描述图片内容。

背后 GLM-5 自己把调用链串了起来：接收图片 → 调用视觉模型分析 → 用人设回复。整个过程完全自动化。

同样的思路可以扩展到语音识别、视频理解——都是把文件发给服务器，OpenClaw 调用 AI 或第三方服务来处理。

能力扩展：语音合成

通过提示词告诉 Agent 用智谱的 GLM-TTS 语音模型生成语音，在 QQ 上发送时文件扩展名要改成 .amr，并且只在声音比文字更合适的时候才发。

设定发出去后，Agent 自己读文档、写脚本来实现。背后流程：GLM-5 生成符合当前情境的文字 → 调用语音合成模型转成音频 → 通过 QQ 发送。

能力扩展：定时提醒

写一段提示词，让 Agent 到点了主动推送提醒，用设定的性格来表达，而不是像个闹钟。真人感的提醒比系统自带的提醒功能实用得多。

能力扩展：服务器操作

这是最有价值的部分。Agent 部署在服务器上，能直接操作服务器干活——读写文件、整理文件夹、写代码跑脚本、搭网站部署上线。

提示词的重点：告诉 Agent 可以操作服务器完成任何任务，通过 80 端口把文件或服务暴露出来让用户访问，缺少工具就自己装。

实测效果：

让 Agent 保存文件到服务器，轻松搞定
让 Agent 查找之前保存的文件，秒级响应
让 Agent 开发一个相册网站，自动完成
让 Agent 搜索和下载视频，通过 yt-dlp 等开源工具实现

只要你发挥想象力，Agent 完全可以通过搜索获取 GitHub 上的各种资源来解决各种问题。

写在最后

整个搭建过程给我的最大感受：以前的 AI 是 Copilot，你得告诉它每一步怎么做；现在 GLM-5 驱动的 Agent 更像 AutoPilot，你只需要说"帮我把这件事搞定"，它就会自己规划步骤、自己调试报错、自己安装依赖，整个过程可能涉及上百次工具调用，但它能做到每一次都稳定可靠。

GLM-5 是开源的，成本比 Opus 4.6 低一个数量级，但 Agent 能力已经跟上了第一梯队。对于独立开发者来说，用 OpenClaw + GLM-5 搭一个多模态、能干活的 AI Agent，是一个性价比极高的选择。去智谱开放平台申请 GLM-5 的 API，动手试试。