为什么要本地部署

云端 API 按 token 计费,长期高频使用成本不低。如果你有一台性能尚可的 Mac Mini,完全可以用本地模型替代,实现全天候免费运行——对独立开发者来说,这是真正的零边际成本方案。

配置步骤

  1. 安装 LM Studio——下载并安装 LM Studio,这是目前最易用的本地模型运行工具之一
  2. 下载模型——在 LM Studio 中选择 GLM-4.6v Flash 并下载(这只是示例,根据你的机器配置选择合适的模型)
  3. 测试推理速度——用简单的 prompt 测试模型响应速度,确认机器能流畅运行
  4. 配置本地服务——在 LM Studio 中设置路由和端口,启动本地 API 服务

接入 OpenClaw

打开 OpenClaw 配置,切换到底部的 raw mode(或直接编辑 openclaw.json),在 JSON 根节点下添加以下配置(注意端口号要与 LM Studio 一致):

"models": {
  "providers": {
    "lmstudio": {
      "baseUrl": "http://127.0.0.1:1234/v1",
      "apiKey": "lmstudio-local",
      "api": "openai-completions",
      "models": [
        {
          "id": "zai-org/glm-4.6v-flash",
          "name": "GLM-4.6v Flash",
          "reasoning": true,
          "input": [
            "text"
          ],
          "pricing": {
            "input": 0,
            "output": 0,
            "cacheRead": 0,
            "cacheWrite": 0
          },
          "contextWindow": 128000,
          "maxTokens": 8192
        }
      ]
    }
  }
}

配置完成后,将 OpenClaw 的主模型设置为 lmstudio/zai-org/glm-4.6v-flash,即可开始使用。

模型选择建议

GLM-4.6v Flash 只是演示用的一个选项。实际使用中,应根据你的硬件配置(内存、芯片型号)选择最合适的模型。对于 Mac Mini M 系列芯片,可以重点关注支持 Apple Silicon 优化的量化模型,在速度和质量之间找到最佳平衡点。

小结

这套方案的核心价值在于:一次配置,长期免费。对于日常编码辅助、文本处理等中等复杂度任务,本地模型已经足够胜任。把省下的 API 费用投入到真正需要顶级模型能力的关键环节,才是独立开发者的精明算法。