两行命令给 AI Agent 写单元测试：skillgrade 让技能评估像跑测试一样简单

两行命令，搞定 Agent 评估

skillgrade 的使用方式简单到有点过分：

skillgrade init  # 创建评估用例
skillgrade       # 运行评估

第一条命令帮你生成评估模板，第二条直接跑。没有复杂的配置文件，没有让你先搭一套基础设施的前置条件。

搭过 Agent 的人都知道一个痛点：你改了一版 prompt，效果好像变好了，又好像没有。到底是真的提升了，还是你刚好测了几个顺眼的 case？说白了，没有系统化的评估，你就是在凭感觉调参。

skillgrade 把这件事标准化了。它的定位很明确——给 Agent 的技能做"单元测试"。就像你写代码要跑 test 一样，Agent 的每个技能也应该有对应的评估用例，改了东西就跑一遍，心里有数。

一个值得注意的设计：skillgrade 默认在 Docker 沙箱容器中运行评估。这意味着你的 Agent 在评估过程中不会意外操作到真实环境。对于那些涉及文件操作、API 调用的 Agent 技能来说，这不是锦上添花，是刚需。

skillgrade 目前在 GitHub 上开源，已经拿到了 247 个 star，14 个 fork。项目还比较早期，但核心功能已经可用。作者 Minko Gechev 把它设计得足够轻量，上手门槛很低。

如果你正在搭建 AI Agent，尤其是技能越堆越多、prompt 越改越乱的阶段，强烈建议把评估这件事提上日程。与其每次改完凭直觉判断"好像行了"，不如跑一遍 skillgrade，让数据说话。