YC 掌门人开源 GStack：让 Claude Skill 像正经软件一样跑自动化测试

Claude Skill 的测试困境

Claude Code 的 Skill 机制让我们可以把常用的工作流封装成可复用的指令，这对一人公司来说是巨大的效率杠杆。但问题来了：Skill 越写越多，相互之间可能有依赖，提示词一改可能牵一发动全身——你怎么知道改完之后所有 Skill 还能正常工作？

手动逐个测试？当你有十几个 Skill 的时候，这条路就走不通了。

GStack 是 Garry Tan 自己在实际使用中搭建并开源的项目，目前在 GitHub 上已经获得了近 2 万颗星。它的核心目标很明确：为 Claude Skill 提供端到端的自动化测试能力。

所谓"端到端"，意思是不只测某个函数或某段逻辑，而是模拟整个 Skill 从输入到输出的完整流程，确保在真实使用场景下一切正常。这和传统软件开发里的 E2E 测试思路完全一致——只不过被测对象从 Web 应用变成了 AI Skill。

对于正在用 Claude Code 构建工作流的独立开发者来说，这个项目至少带来两个启发：

Skill 不是写完就完了。 随着你的 AI 工作流越来越复杂，测试和质量保障会变成刚需。现在就建立测试习惯，比出了问题再补要划算得多。
开源社区正在填补工具链的空白。 Claude Code 本身还在快速迭代，官方工具链尚未覆盖所有场景，像 GStack 这样的社区项目恰好补上了关键一环。

如果你已经在用 Claude Code 的 Skill 功能，不妨在 GitHub 上搜索 GStack，看看它的架构设计和测试思路。即使不直接套用，理解"如何为 AI 工作流做自动化测试"这个思维框架本身，就能让你在搭建自己的 Agent 系统时少踩很多坑。

一个值得继续想的问题是：当 AI Agent 变得越来越自主，我们测试它的方式，是不是也得跟着从"测功能"进化到"测行为"？