Skill Creator 2.0：多 Agent 协作终于有了可量化的调优闭环

老问题：你根本不知道 Skills 到底有没有用

大部分人建完 Skills 的流程是这样的：写好规则，试两三次，感觉"好像还行"，就扔在那儿了。心里其实没底——它到底让输出变好了，还是在添乱？

更隐蔽的坑：模型升级后，三个月前调好的 Skills 可能反而在拖后腿。当时 Claude 原生能力一般，你需要详细指令一步步引导。但新模型本身已经很强了，你还让它按老规则来，等于把输出写死了。

还有一个多 Agent 场景下的经典问题：Skills 触发不精准。你的「技术文档 Skills」本来只想让文档 Agent 用，结果客服 Agent 也误触发了，回复风格直接跑偏。

Skill Creator 2.0 针对这三个问题，分别给了三个解法。

直接对 Claude 说：

用 Skill Creator 评估我的 [Skills 名称]

它会根据你的 Skills 类型，自动生成一批真实测试提示。比如你做的是落地页 Skills，它就会生成「写一个 SaaS 产品落地页」这样的实际任务，然后逐条跑测试，严格检查输出是否遵守了你定义的语气、格式、结构要求。

最后给你一份清晰的报告：

「9 个测试通过 7 个，失败原因：第 3 条忽略了标题格式，第 5 条语气跑偏……」

然后告诉它「帮我修复这些问题」，重新评估，直到全部通过。从「凭感觉」变成「数据驱动」，这一步的体验差距很大。

这招解决的是「旧 Skills 是否还有存在价值」的问题。

用 Skill Creator 对我的 [Skills 名称] 做基准对比测试

它会用同一批测试任务，同时跑两个版本：

然后让一个独立的「裁判」在不知道哪个版本用了 Skills 的情况下打分。结果出来后决策很简单：

这里有个坑：很多人的 Skills 库里堆了一堆过时的东西，自己完全没意识到。每次 Claude 大版本更新后，第一件事就应该跑这个测试，几分钟的事。

Skills 触发不准，原因其实很简单——描述标签写得不够好。写太泛，乱调用；写太窄，认不出来。

用 Skill Creator 优化我的 [Skills 名称] 描述

它会用几十条不同提示反复测试你的 Skills 描述，检验该触发时能不能精准触发、不该触发时能不能安静。然后自动重写一个更精准的描述。

Anthropic 官方自己的 Skills 用这个功能优化后，6 个里有 5 个触发准确率大幅提升。连官方自己都在用，说明这招确实有效。

在 OpenClaw 多 Agent 场景下，这一步尤其关键。优化后的描述能让「文案 Agent」专注文案、「代码 Agent」专注代码，不再互相干扰。

Claude.ai 或 Cowork 用户，直接说上面三句话就行。

Claude Code 用户，输入 /plugin → 搜索 Skill Creator → 安装 → 重启。

建议把你 OpenClaw 里现有的 Skills 逐个测一遍。大概率会发现 1～2 个已经过时、触发错误、或者已经被原生 Claude 超越的 Skills。第一次测大概 10 分钟。

长期来看，值得建一个「Skills 体检清单」，每次 Claude 模型更新后用 Skill Creator 2.0 跑一遍所有 Skills，保持整个系统在最佳状态。与其靠感觉调 Agent，不如让数据告诉你答案。