Karpathy 用 8 个 AI Agent 组建虚拟研发团队，一个人跑通深度学习研究全流程

实验设置

Karpathy 在 nanochat 项目上进行实验，具体配置如下：

整套系统的隔离与协作机制设计得相当务实：

实验结论很直接——目前还跑不通。原因不在工程层面，而在 Agent 的研究能力本身：

一个典型反面案例：某个 Agent "发现"增大网络的 hidden size 能降低验证集 loss，并将其当作研究成果汇报。但这完全是伪结论——在数据充足的条件下，更大的网络天然会有更低的 loss，而且更大的模型训练时间也更长，这些混淆变量 Agent 完全没有意识到。

简言之：Agent 擅长执行定义清晰的具体任务，但不擅长创造性地提出和验证研究假设。

Karpathy 指出，这件事的本质是把一个组织编程化。一个"AI 研究院"的源代码，就是它所有的 prompt、技能定义、工具配置和工作流程的集合。比如"每天早上开站会"这件事，现在就是组织代码的一部分。

优化 nanochat 预训练只是众多可能任务中的一个，更像是一个 eval benchmark。最终要回答的问题是：

给定任意一个研究任务，你的 AI 研究组织能以多快的速度产出有效进展？

这个实验揭示了当前多智能体系统的真实边界：执行层已经足够强，瓶颈在决策层和实验设计能力。对于想用 Agent 搭建自动化工作流的实践者来说，当下最务实的策略是——人类负责拆解问题和设计方案，把定义清晰的子任务交给 Agent 并行执行，而非期望 Agent 端到端地完成开放式探索。