为什么要本地部署
云端 API 按 token 计费,长期高频使用成本不低。如果你有一台性能尚可的 Mac Mini,完全可以用本地模型替代,实现全天候免费运行——对独立开发者来说,这是真正的零边际成本方案。
配置步骤
- 安装 LM Studio——下载并安装 LM Studio,这是目前最易用的本地模型运行工具之一
- 下载模型——在 LM Studio 中选择 GLM-4.6v Flash 并下载(这只是示例,根据你的机器配置选择合适的模型)
- 测试推理速度——用简单的 prompt 测试模型响应速度,确认机器能流畅运行
- 配置本地服务——在 LM Studio 中设置路由和端口,启动本地 API 服务
接入 OpenClaw
打开 OpenClaw 配置,切换到底部的 raw mode(或直接编辑 openclaw.json),在 JSON 根节点下添加以下配置(注意端口号要与 LM Studio 一致):
"models": {
"providers": {
"lmstudio": {
"baseUrl": "http://127.0.0.1:1234/v1",
"apiKey": "lmstudio-local",
"api": "openai-completions",
"models": [
{
"id": "zai-org/glm-4.6v-flash",
"name": "GLM-4.6v Flash",
"reasoning": true,
"input": [
"text"
],
"pricing": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 128000,
"maxTokens": 8192
}
]
}
}
}
配置完成后,将 OpenClaw 的主模型设置为 lmstudio/zai-org/glm-4.6v-flash,即可开始使用。
模型选择建议
GLM-4.6v Flash 只是演示用的一个选项。实际使用中,应根据你的硬件配置(内存、芯片型号)选择最合适的模型。对于 Mac Mini M 系列芯片,可以重点关注支持 Apple Silicon 优化的量化模型,在速度和质量之间找到最佳平衡点。
小结
这套方案的核心价值在于:一次配置,长期免费。对于日常编码辅助、文本处理等中等复杂度任务,本地模型已经足够胜任。把省下的 API 费用投入到真正需要顶级模型能力的关键环节,才是独立开发者的精明算法。