为什么要替换心跳模型?
大多数人在使用 OpenClaw 时,会让云端 API 处理所有请求——包括保活心跳和重复性的低负载任务。这些请求虽然单次消耗不大,但 24/7 累积下来,token 用量相当可观。每月 20 美元的订阅费,很大一部分其实花在了这些"没有技术含量"的调用上。
本地部署一个轻量模型,专门处理这类任务,成本直接归零。
配置步骤
- 下载并安装 LM Studio
- 获取 Llama 3.2 2B 模型(体积小、推理快,16GB 内存完全够用,后台运行几乎无感知)
- 在 LM Studio 中加载模型并保持运行状态,确认模型 ID 一致
- 将 OpenClaw 中所有 Agent 的心跳模型切换为 Llama 3.2 2B
16GB 机器跑本地模型的三个优势
- 零延迟:没有网络往返,响应即时
- 无限 token:排序、格式化、状态更新等重复任务随便跑,全天免费
- 数据隐私:业务逻辑完全留在本地,不经过第三方服务器
实操建议
选择 2B 参数量的模型做心跳任务,优先使用 MLX 格式以充分利用 Apple Silicon 的算力。把云端 API 的额度留给真正需要复杂推理的场景——这才是 token 该花的地方。
对于独立开发者来说,这种"轻量任务本地化、核心推理云端化"的混合架构,是控制运营成本的实用策略,值得在所有 Agent 工作流中推广。