两行命令,搞定 Agent 评估

skillgrade 的使用方式简单到有点过分:

skillgrade init  # 创建评估用例
skillgrade       # 运行评估

第一条命令帮你生成评估模板,第二条直接跑。没有复杂的配置文件,没有让你先搭一套基础设施的前置条件。

为什么你需要给 Agent 做评估

搭过 Agent 的人都知道一个痛点:你改了一版 prompt,效果好像变好了,又好像没有。到底是真的提升了,还是你刚好测了几个顺眼的 case?说白了,没有系统化的评估,你就是在凭感觉调参。

skillgrade 把这件事标准化了。它的定位很明确——给 Agent 的技能做"单元测试"。就像你写代码要跑 test 一样,Agent 的每个技能也应该有对应的评估用例,改了东西就跑一遍,心里有数。

安全沙箱,默认就有

一个值得注意的设计:skillgrade 默认在 Docker 沙箱容器中运行评估。这意味着你的 Agent 在评估过程中不会意外操作到真实环境。对于那些涉及文件操作、API 调用的 Agent 技能来说,这不是锦上添花,是刚需。

项目现状

skillgrade 目前在 GitHub 上开源,已经拿到了 247 个 star,14 个 fork。项目还比较早期,但核心功能已经可用。作者 Minko Gechev 把它设计得足够轻量,上手门槛很低。

如果你正在搭建 AI Agent,尤其是技能越堆越多、prompt 越改越乱的阶段,强烈建议把评估这件事提上日程。与其每次改完凭直觉判断"好像行了",不如跑一遍 skillgrade,让数据说话。