这个区别很关键。独立 Agent 的问题在于缺乏锚点——它不知道什么时候该停,不知道改得好不好,也没有机制在搞砸时退回去。Autoresearch 用三个机制解决这些问题:明确的验证指标、自动的保留/丢弃判断、以及无限循环的改进周期。

核心循环:Modify → Verify → Keep/Discard → Repeat

整个系统的工作流可以概括为四步:

  • Modify:Claude Code 根据目标对代码或内容进行修改
  • Verify:用预设的指标(测试通过率、性能基准、代码质量分数等)验证修改结果
  • Keep/Discard:指标提升则保留,下降则回滚到上一个状态
  • Repeat:循环往复,直到达到目标或触发停止条件

这不是什么新概念——强化学习和遗传算法早就用类似思路。但把它嫁接到 Claude Code 的 Skill 系统上,意味着任何使用 Claude Code 的开发者都能直接用上这套机制,不需要额外搭建基础设施。

作为 Claude Code Skill 的设计选择

Autoresearch 被实现为一个 Claude Code Skill,而不是独立工具或 CLI。这个设计选择值得注意:Skill 是 Claude Code 的原生扩展机制,意味着它能直接访问项目上下文、文件系统和终端,同时继承 Claude Code 本身的权限管理和安全边界。

对独立开发者来说,这降低了使用门槛。你不需要配置额外的运行环境,不需要管理 API 密钥的传递链路,也不需要担心 Agent 脱离控制——Claude Code 的沙箱机制仍然生效。

适用场景

这套"有约束的无限迭代"模式特别适合几类任务:

  • 性能优化:设定基准指标,让系统反复尝试不同优化策略,只保留有效的
  • 提示词工程:用评分函数衡量输出质量,自动迭代 prompt
  • 代码重构:以测试通过率为约束,持续改进代码结构
  • 文档生成:用可读性或覆盖率指标驱动内容改进

关键前提是你得有可量化的验证指标。如果一个任务的"好坏"只能靠人类主观判断,这套机制就失去了自动化的基础。

值得关注的局限

目前项目在 GitHub 上有 547 个 Star、45 个 Fork,仍处于早期阶段。从仓库状态看,只有 1 个 open issue,说明社区反馈还在积累中。实际使用中需要注意几点:每次迭代都会消耗 Claude API 的 token,无限循环意味着潜在的高成本;验证指标的设计质量直接决定了迭代方向是否正确——垃圾指标会导致系统朝错误方向收敛。

对于正在用 Claude Code 做产品开发的独立开发者,这个项目提供了一个把"人盯着 AI 改代码"升级为"AI 自己改、自己验、改不好就撤回"的可行路径。前提是你愿意花时间定义好验证指标——这件事本身,可能比写代码更重要。