两行命令,搞定 Agent 评估
skillgrade 的使用方式简单到有点过分:
skillgrade init # 创建评估用例
skillgrade # 运行评估
第一条命令帮你生成评估模板,第二条直接跑。没有复杂的配置文件,没有让你先搭一套基础设施的前置条件。
为什么你需要给 Agent 做评估
搭过 Agent 的人都知道一个痛点:你改了一版 prompt,效果好像变好了,又好像没有。到底是真的提升了,还是你刚好测了几个顺眼的 case?说白了,没有系统化的评估,你就是在凭感觉调参。
skillgrade 把这件事标准化了。它的定位很明确——给 Agent 的技能做"单元测试"。就像你写代码要跑 test 一样,Agent 的每个技能也应该有对应的评估用例,改了东西就跑一遍,心里有数。
安全沙箱,默认就有
一个值得注意的设计:skillgrade 默认在 Docker 沙箱容器中运行评估。这意味着你的 Agent 在评估过程中不会意外操作到真实环境。对于那些涉及文件操作、API 调用的 Agent 技能来说,这不是锦上添花,是刚需。
项目现状
skillgrade 目前在 GitHub 上开源,已经拿到了 247 个 star,14 个 fork。项目还比较早期,但核心功能已经可用。作者 Minko Gechev 把它设计得足够轻量,上手门槛很低。
如果你正在搭建 AI Agent,尤其是技能越堆越多、prompt 越改越乱的阶段,强烈建议把评估这件事提上日程。与其每次改完凭直觉判断"好像行了",不如跑一遍 skillgrade,让数据说话。