它们通常长这样:
先准备一批离线数据,
再做集中式训练,
跑完评测,
最后告诉你模型变强了。
问题是,这种范式很难直接落到个人 Agent 身上。
因为个人 Agent 真正最值钱的部分,不是通用 benchmark 分数,而是它能不能越来越懂你、越来越贴合你的工作方式、越来越会在你的环境里行动。
OpenClaw-RL 最值得写的地方,就在于它试图把这件事真正工程化:
不是把 RL 放在论文后面,
而是把 RL 放进你每天和 Agent 的对话流里。
它的核心主张非常简单,但很有冲击力:
你平时和 Agent 的自然对话、本来就包含大量训练信号。只要系统设计得对,这些信号不需要人工标注,就能直接拿来持续优化模型。
这和大多数 RL 系统差异非常大。
传统做法依赖预收集数据集;OpenClaw-RL 则把一个自托管模型包进 OpenClaw,拦截真实多轮对话,然后在后台异步完成 rollout、judge/PRM 评估和策略训练。整个过程不会打断用户当前使用,模型继续服务,训练同时发生。
如果这个框架成立,它带来的不是“又一个训练脚本”,而是 Agent 学习方式的变化:
从“训练完再上线”,
变成“上线后继续学”。
这件事为什么重要?
因为个性化 Agent 的难点从来不只是模型能力,而是长期适配。你喜欢什么风格、讨厌什么输出、在什么场景下希望它主动、什么情况下要保守、哪些工具调用是对的、哪些动作会惹你烦,这些东西其实很难靠一开始写几段提示词就完全解决。
真正靠谱的方式,本来就应该是持续纠偏。
OpenClaw-RL 提供的就是一个把纠偏正规化的框架。
它里面最重要的一点,是把“下一状态”当成奖励来源。也就是说,模型当前回合给出的回答,不一定马上有人标个分;但用户接下来的反馈、工具执行结果、环境返回的成败,本身就已经在告诉系统:刚才那一步到底做得怎么样。
这种想法非常贴近真实世界。
因为人类在和 Agent 交互时,很少会认真给标准标签,但会自然地表现出满意、不满意、纠正、补充、继续追问、或者干脆终止任务。对一个长期运行的 Agent 来说,这些都比静态打分更真实。
OpenClaw-RL 进一步把这种信号分成了几种学习范式。
第一种是 Binary RL。
本质上更像把交互结果压成“好 / 不好”的标量反馈,用 PRM 去判断回合质量,再做类似 PPO / GRPO 的优化。这种方式对隐式反馈更友好,比如点赞、点踩、任务成功与否、环境返回是否顺利。
第二种是 OPD,也就是 On-Policy Distillation。
这套方法更适合文本型纠正。比如用户说:“你本来应该先看文件再回答。”系统不只是得到一个低分,而是能把这个 hindsight 提炼成明确方向信号,再在 token 级别上对策略做更细的蒸馏。这比单一标量奖励的信息密度高得多。
第三种是它们的组合方法。
这也是论文里最强调的一条路线:把 Binary RL 的广覆盖标量监督,和 OPD 的高信息密度方向信号结合起来。简单说,就是既知道“你错了”,也更知道“你应该往哪边改”。这显然比只靠其中一种信号更强。
但我觉得 OpenClaw-RL 真正厉害的地方,还不在算法名字,而在工程取舍。
它把 serving、rollout、judge/PRM 和 training 明确拆成四个异步环路。谁也不阻塞谁。这样一来,模型不需要因为训练而停机,评估也不用等服务结束后再集中跑。这个架构非常符合真实生产环境,因为没有人愿意为了让 Agent 变聪明而忍受它经常不可用。
另外,它也没有把自己限制在“私人助理”场景。项目后半段明确把这套异步 RL 骨架扩展到 terminal、GUI、SWE 和 tool-call 几类现实环境。这一点很关键,因为它说明团队真正想做的,不只是一个 personalized chat optimizer,而是一套更通用的 Agentic RL 基础设施。
你可以把它理解成:
OpenClaw 是运行时和交互壳,
OpenClaw-RL 是让这个运行时具备持续进化能力的训练后端。
如果这条路走通,它会给 Agent 产品带来一个很大的想象空间:
未来我们对 Agent 的期待,可能不再只是“会不会做”,而是“会不会越用越像你的人”。
当然,这里面也有几个现实问题不能忽略。
第一,训练信号污染。
用户日常反馈并不总是稳定、理性、可泛化的。有人今天喜欢它简洁,明天又觉得它太短;有人在一个任务里需要激进,在另一个任务里却希望极度保守。如何从杂乱反馈里提取真正长期有效的偏好,本身就是大问题。
第二,错误强化。
如果 judge 或 PRM 判断不准,或者 next-state 信号本身有偏差,系统可能会把一些偶然成功放大成“正确方向”,最后把模型往奇怪的地方带偏。一个会自我更新的系统,最怕的不是学得慢,而是学歪了。
第三,成本与基础设施。
项目默认环境显然不便宜,8 卡 GPU、Slime、Tinker、异步服务、LoRA、评估链路,这不是普通用户“点一下就用”的东西。它更像一套研究型或高阶工程型基础设施。也就是说,理念很强,但真正普及还需要一层更简单的产品化包装。
尽管如此,我依然觉得 OpenClaw-RL 很值得关注。
因为它抓住了一个真正重要的问题:
Agent 的未来,不应该只是一个静态能力包,
而应该是一个在真实交互中持续吸收反馈、逐步适配环境和用户的系统。
如果一定要用一句话总结它,我会这样说:
OpenClaw-RL 最重要的不是“把强化学习接到 Agent 上”,
而是它第一次比较完整地展示了:
一个 Agent 能不能在不打断服务的情况下,一边为你工作,一边从与你的真实互动中悄悄变强。
这件事一旦成立,Agent 的竞争力就会从“谁的初始模型更强”,慢慢转向另一件更有护城河的东西:
谁更会学,
谁学得更快,
谁越用越像你。