AIGC 真正进了 Agent 工具箱

最让我兴奋的是 ComfyUI 插件的内置。以前想让 Agent 生成图片或视频,要么外挂 API 要么自己拼一套 workflow,现在 OpenClaw 直接把 ComfyUI 的 workflow 内置进来,三种媒体类型都支持,还能 prompt 注入、参考图上传、实时测试。

这个变化的意义比表面看起来大。OpenClaw 一直是"AI 助手编排平台"的定位,现在它扩展到了"创意生成工具链"——Agent 不再只是回答问题、调 API,它真的能 do things 来创造内容。对一人公司来说,这意味着你可以让 Agent 自己跑完"写文案 → 生成配图 → 剪视频"的完整链路,不用再切几个工具。

Provider 生态明显往亚洲倾斜

这版新接入了 Qwen、Fireworks AI、StepFun、MiniMax,TTS 和 Search 能力也跟着扩了。我自己测过 Qwen 和 MiniMax 的接入,配置体验比早期顺滑很多。

但真正让我觉得有诚意的是 Amazon Bedrock Mantle 这块。它现在支持 Claude/GPT-OSS/Qwen/Kimi/GLM 自动发现 inference profiles,关键是用 IAM credential chain,不再需要手动塞 AWS_BEARER_TOKEN_BEDROCK——我当时就踩过这个雷,token 过期后调试了半天才反应过来。这次改完对企业级部署友好太多,独立开发者如果用 AWS 也能少踩坑。

Context Visibility 终于落地

前期在 v2026.4.3 main 分支铺开的 Context Visibility 这版正式发布了。每个 channel 可以单独配置可见性,三种模式:

  • all:全可见
  • allowlist:白名单
  • allowlist_quote:白名单 + 引用

覆盖的渠道包括 Discord、Slack、Telegram、Matrix、MS Teams、iMessage、WhatsApp。说实话这个我用了才知道好在哪——之前在 Slack 上跑 Agent 经常遇到上下文溢出的尴尬,现在能精细控制哪些消息进上下文,调试和成本都好很多。

Task Flow × Lobster 集成

Lobster workflow 改成了进程内执行,不再需要 external CLI hop。听起来是个小改动,但延迟和稳定性差很多。Managed TaskFlow 模式也强化了 resume 验证,长任务断点续传更可靠。

Dreaming/Memory 系统从实验走向成熟

这块的变化挺值得说的。三阶段协作架构(light / deep / REM)现在各自独立调度了,Dreams UI 也新增了 Dream Diary 界面。日记路径从内部位置提升到顶层 dreams.md,这个设计我赞成——记忆系统的可观测性以前太差。

可配置的老化控制也加进来了:

  • recencyHalfLifeDays:近期记忆的半衰期
  • maxAgeDays:记忆最长保留天数

日常笔记现在分块化处理,证据收集质量明显提升。核心 commit 是 02f2a66dff+,有兴趣可以翻翻。

唯一的破坏性变更

PR #60726 把废弃的旧配置别名清理了。迁移方式挺友好:

openclaw doctor --fix

会自动迁移,加载时还维护着兼容层。这种处理方式我喜欢——给迁移留缓冲,不强制断头。

安全加固这块花了不少心思

插件安全层面,保留工具的 allowlist 不再被插件静默扩大,/allowlist 变更需要 owner 权限,Hook crash 时直接 fail-closed(失败即拒绝)。这是正确的安全姿态——默认拒绝比默认允许稳得多。

设备配对方面,scope 检查限定在已批准角色范围内,拒绝未批准的 token rotation。

Claude CLI 这边加固特别明显:清除继承的环境变量覆盖,强制 --setting-sources user,阻止会话中执行 repo-local .claude(防止目录穿越执行)。最后这条很关键,之前是个潜在的供应链攻击面。

SSRF/沙箱也做了加固:跨设备文件处理、URL 精确归一化、符号链接逃逸防护,每一项都是实打实的攻击面收紧。

Control UI 国际化大爆发

这版一口气补了 12 种语言:简中、繁中、巴葡、德、西、日、韩、法、土、印尼、波兰、乌克兰。一次性把主要市场全覆盖了。

UI 上还有几个亮点:

  • ClawHub 集成:Skills 面板里直接搜索/查看详情/安装,不用切平台
  • Per-Session Thinking:聊天头部和移动端设置里可选思考级别,这个对成本控制很有用
  • 音频支持/tts 回复现在内联显示音频控件

Prompt Caching 优化容易被忽视

这块对成本影响很大,但容易被忽视。改了几个地方:

  • MCP 工具确定性排序
  • 归一化 system prompt 指纹
  • 移除重复的 in-band 工具清单
  • openclaw status --verbose 里显示缓存诊断

效果是后续轮次的缓存复用显著改善,token 成本降下来了。如果你跑长会话或者多轮 Agent,更新到这版能省不少钱,建议跑完之后用 --verbose 看一眼缓存命中率。

基础设施和平台特定修复

Gateway 启动加了 PID 回收检测、启动进度显示、防止陈旧锁文件。

平台特定层面:

  • macOS:launchd KeepAlive 重启处理,LaunchAgent 恢复
  • Windows:Task Scheduler 设置保留、Startup 条目回退、listener 清理
  • 更新系统:正确选择 npm 二进制(修复 Homebrew + nvm 冲突)

最后这条很贴心,Homebrew + nvm 同时装的环境下选 npm 是个老大难问题。

Claude CLI 的状态变化

这是个值得关注的信号。新 onboarding 流程不再推荐 Claude CLI 后端,但现有 profile 继续可用。同时 MCP bridge 暴露工具、stdin + stream-json 流式、实时进度都加进来了,#35676 也修了。

意思很明显:OpenClaw 在减少对 Claude CLI 包装的依赖,逐步通过原生 Anthropic API 代替。如果你还在用 CLI 后端,可以开始规划迁移了,不急但要有意识。

趋势观察

把这几天 v2026.4.2 → v2026.4.5 的开发节奏拉远看,几个趋势挺清楚:

  • AIGC 能力下沉:Video/Music/Image 生成成了一等公民工具
  • Provider 生态向亚洲扩张:Qwen、MiniMax、Kimi、GLM、StepFun 全进来了
  • 企业友好度提升:Bedrock IAM、Windows Task Scheduler、macOS launchd 都在打磨
  • 国际化补齐:一次性 12 语言
  • 安全边界持续加固:每版都有多项修复
  • 质量优先:85% 的 commit 是 Fix/Test/Docs/Refactor,项目进入稳固期

对独立开发者来说,这版的实际价值在于:AIGC 工具链可以直接接进 Agent,亚洲模型选择多了,长会话成本能降下来,企业部署门槛降低。如果你在用 OpenClaw 跑生产工作流,这是个值得升的版本——但记得先跑 openclaw doctor --fix 把旧别名迁移掉。