Karpathy 的 Autoresearch 真正厉害的，不是自动做研究，而是把 Agent 关进了一个好用的笼子

这当然很酷。

但如果只看到这一层，其实会错过这个项目真正最有价值的部分。

Autoresearch 真正厉害的，不是它证明了 AI 已经能像科学家一样自主研究，而是它非常清楚地展示了一件事：

一个 Agent 什么时候开始有用，不取决于它有多自由，而取决于你给它造了一个多好的笼子。

这个说法听起来有点反直觉。

大家平时谈 Agent，常常默认“越自主越高级”。但现实恰恰相反。绝大多数 Agent 一旦权限放宽、目标变模糊、上下文变发散，很快就会从“聪明助手”退化成“高成本噪音制造机”。

Autoresearch 的聪明之处，就在于它完全没有试图让 Agent 扮演一个无所不能的 AI 研究员。

它把任务压缩成一个极窄的闭环：

只改一个文件；
只追一个指标；
只在固定时间预算里跑实验；
有效就保留，无效就回滚；
崩了就记日志，继续下一个。

这套设计乍看很克制，实际上却极其强大。

因为它把“研究”这件原本高度开放、极度容易发散的事情，改写成了一个可持续运行的优化系统。

第一层最值得学的，是搜索空间收窄。

Autoresearch 不让 Agent 到处乱改，而是把可修改范围限制在 train.py。数据准备、tokenizer、评估逻辑等关键部分都被锁在外面。这个决定非常重要。

因为只要搜索空间太大，Agent 就很容易通过“改 benchmark”“偷改前提条件”“顺手污染环境”这种方式获得虚假的进步。表面看指标提升了，实际上系统已经被它自己偷偷改坏。

而当你把修改范围收窄到一个可观察、可回滚、可比对的单文件里，每次实验才真正有意义。

第二层最值得学的，是指标稳定。

很多所谓 autonomous system 最大的问题，不是模型不够强，而是它到底在优化什么，连人自己都没定义清楚。Autoresearch 选了固定指标、固定 harness、固定 wall-clock 预算，这意味着 Agent 不需要猜“什么叫更好”，它只需要围绕同一个明确定义的结果不断试错。

这件事在 Agent 设计里非常关键。

因为只要目标模糊，Agent 就会开始在错误方向上努力；而一个在错误目标上极度高效的系统，只会让你更快地走偏。

第三层最值得学的，是时间预算。

Autoresearch 每轮实验不是跑到天荒地老，而是固定 5 分钟。这个设计看起来像工程细节，实际上很有哲学意味：它优化的不是“理论最佳”，而是“在同样时间约束下，谁更有效”。

这和真实世界高度一致。

无论你在做训练、内容系统、自动化流程还是产品迭代，真正稀缺的通常不是绝对最优解，而是单位时间内能不能持续得到更好的结果。

Agent 一旦被拉回这个现实约束里，它才开始像一个真正能落地的系统，而不是实验室里的表演装置。

第四层最值得学的，是失败被默认视为常态。

很多 Agent demo 看起来都很顺，是因为你只看到了成功回合。但真实环境里，崩溃、OOM、NaN、无效实验、错误方向，本来就应该大量出现。Autoresearch 没有假装这些问题不存在，而是把失败处理明确写进操作手册里：

出了错，先看 log；
能快速修就修；
修不了就记录，然后继续。

这类设计的意义非常大。

因为一个允许失败、并且能便宜地丢弃失败结果的系统，才真的敢探索；
一个每次失败都会把环境搞脏、让状态不可恢复的系统，最后只能小心翼翼地原地踏步。

第五层，也是我觉得最容易被低估的一层：program.md 这样的指令文件，其实是系统架构的一部分。

很多人到今天还把 prompt 当作“写给模型看的几句说明”，但在 Autoresearch 里，这类文件已经明显不是装饰物，而是操作系统层。

它定义了边界、流程、保留条件、失败处理、实验记录方式和恢复策略。换句话说，代码只是系统的一部分，另一部分是“人如何编排 autonomous worker 的工作方式”。

这也是为什么我越来越觉得，未来 Agent 系统的核心竞争力，未必只在模型能力上，而会越来越多地体现在 harness 设计上。

谁更会设计边界，
谁更会设计指标，
谁更会设计回滚，
谁更会设计失败恢复，
谁更会把 prompt / rules / logs / commit history 这些层组织成闭环，
谁的 Agent 才更可能长期稳定地产生价值。

从这个角度看，Autoresearch 最重要的启发其实非常普适。

它不只适用于训练脚本优化，也适用于你今天能想到的很多 Agent 场景：

内容生成 Agent，应该缩小可修改范围，固定评估标准；
研究 Agent，应该明确什么算一次有效检索，什么必须回滚；
自动化运营 Agent，应该把失败恢复和状态记录做进系统，不要依赖“它应该不会出错”；
多 Agent 工作流，应该把“谁能改什么、谁不能碰什么”写死，而不是寄希望于模型一直自觉。

所以如果一定要用一句话总结 Autoresearch，我会这样说：

它最有价值的地方，不是让 AI 更像研究员，
而是让我们看清了：真正靠谱的 autonomous system，首先得像一台有边界、有仪表盘、有回滚阀门的机器。

Agent 不是自由发挥得越多越好。

Agent 真正开始变有用的那一刻，往往恰恰是你终于学会：

该把它关进一个什么样的笼子里。