为什么需要一个"AI 项目经理"

问题的根源不是 AI 模型不够强,而是 AI 的上下文窗口有限。你要么让它记住代码细节,要么让它记住业务背景,两者很难兼得。直接用 AI 写代码,它要么懂代码但不懂业务,要么了解需求但写不出好代码。

Elvis 的方案是分两层:

  • AI 项目经理(Zoe):记住所有业务信息——客户画像、历史需求、尝试过的方案、成功和失败的经验。这些信息存在 Obsidian 笔记里,Zoe 随时调取。
  • AI 程序员(Codex、Claude Code、Gemini):只管写代码。Zoe 负责把业务需求"翻译"成详细的技术任务说明,分配给合适的 AI 程序员。

这个架构和 Stripe 最近公开的内部系统一模一样,区别是 Stripe 的系统要几十万美元,Elvis 的跑在自己电脑上,成本是零头。

实战案例:从开会到上线,70 分钟

用一个真实例子看这套系统怎么运作:

10:00 — 客户打电话说,每次都要重新设置配置太麻烦,想复用之前的设置。Elvis 没打开编辑器,而是跟 Zoe 聊了几句。因为会议记录都自动存在笔记里,Zoe 已经知道这个客户的背景。方案很快确定:做个模板功能。

10:15 — Zoe 开始执行。它做了三件事:给客户账户充值解除限制(有管理员权限)、从数据库调出客户现有配置数据、创建一个 AI 程序员并给出详细任务说明。

10:20 — AI 程序员在独立工作区里开工:写代码、跑测试、提交。

10:30-11:00 — Elvis 去散步。一个自动脚本每 10 分钟检查一次进度:AI 还在工作吗?代码提交了吗?测试通过了吗?卡住就自动重试,最多 3 次。

11:05-11:15 — 代码提交后,三个 AI 审查员依次检查:Codex 找逻辑错误和边界情况,Gemini 找安全和性能问题,Claude Code 做最终验证。三个 AI 直接在代码下面写评论。

11:20 — Elvis 手机收到通知:"功能 #341 做好了,等你审查。"测试全过,三个审查员都批准,还附了界面截图。他花 5 分钟看了截图和关键评论,点了确认,功能上线。

全程 70 分钟,Elvis 实际动手不到 15 分钟。

成本算账

Elvis 每月 API 开销:

  • Claude API:100 美元
  • Codex API:90 美元
  • 合计:190 美元/月(刚起步可以从 20 美元/月开始)

硬件方面,他最初用 16GB 内存的 Mac Mini,能同时跑 4-5 个 AI 程序员,但每个 AI 都需要独立工作空间和依赖包,内存很快吃紧。后来换成 128GB 内存的 Mac Studio(3,500 美元一次性投入),稳定运行 15-20 个 AI 程序员。

对比传统方案:要达到同样的产出(日均 50 次提交),需要 2-3 个全职程序员,年成本 20-30 万美元。Elvis 的系统年成本 5,780 美元,省了 95% 以上。

搭建指南:五个关键步骤

步骤一:选工具

  • AI 项目经理:OpenClaw(免费开源)
  • AI 程序员:至少配两个,各有专长
    • Codex:适合复杂逻辑、后端代码、跨文件修改,慢但靠谱,Elvis 90% 的任务用它
    • Claude Code:速度快,适合前端界面和 git 操作
    • Gemini:设计感强,适合生成界面设计稿

Zoe 会根据任务类型自动选择——计费系统的 bug 给 Codex,按钮样式调整给 Claude Code,新页面设计从 Gemini 开始。预算有限的话,先从 Codex + Claude Code 起步。

步骤二:建业务知识库

这一步最容易被忽略,但决定了整套系统的上限。AI 项目经理的价值就在于它记住了 AI 程序员看不到的东西。

用 Obsidian、Notion 或任何笔记工具,持续记录:

  • 客户信息:谁是谁、做什么业务
  • 会议记录:客户说了什么、为什么要这个功能
  • 决策历史:试过什么方案、为什么失败
  • 成功经验:哪种方式有效

当 AI 程序员失败时,Zoe 不会机械重试,而是结合业务上下文重新说明任务。比如直接告诉 AI:"客户要的是 X 不是 Y,这是他们在会议上的原话。"

两周的积累就能形成初步知识库,这个投入回报比极高。

步骤三:设置自动监控

你需要知道 AI 在做什么,但不能每 5 分钟就去问(API 调用太贵)。

Elvis 的方案:每个 AI 程序员开工时,在一个 JSON 文件里创建记录——任务内容、工作分支、当前进度。一个脚本每 10 分钟跑一次,检查可观察的状态(代码有没有提交、测试有没有通过),而不是去问 AI"你在干嘛"。只在连续失败 3 次或卡住超过 30 分钟时才发警报。

第一版可以很简单:每 15 分钟检查一次,任务超过 1 小时没完成就发邮件提醒。

步骤四:让系统越用越聪明

大多数 AI 工作流的问题是任务说明不会进化。Elvis 的改进是让 Zoe 根据失败原因动态调整——分析是信息不够、方向错了还是需要澄清,然后用业务知识重写任务说明。

更进一步,Zoe 会主动找活干:

  • 早上扫描错误日志,发现 bug 就自动创建 AI 程序员去修
  • 会后扫描会议记录,标记功能需求并分配任务
  • 晚上扫描提交历史,创建 AI 去更新文档

每次成功的经验都会被记录:"这种任务说明适合计费功能""Codex 需要提前知道数据结构"。随着时间推移,任务说明越来越精准,失败率持续下降。

步骤五:三重代码审查

人工逐行审查太慢,直接上线 AI 写的代码太冒险,三重审查是平衡点:

  • Codex:最彻底,找逻辑错误和边界情况
  • Gemini:免费,找安全和性能问题
  • Claude Code:偏谨慎,只看它标记为"严重"的问题

Elvis 还加了一条规则:改了界面就必须附截图,否则测试不通过。这让他能在 5 分钟内完成审查——看截图就知道改了什么,不用打开预览环境。至少配两个审查员,推荐 Codex + Gemini(Gemini 免费)。

系统的边界

Elvis 很坦诚:复杂的架构决策、跨多个服务的大改动、需要深度专业知识的 bug,还是要他亲自处理。AI 程序员擅长的是"任务明确的中小型工作"——给定清晰的输入和预期输出,它们能一次搞定。

但工作性质的转变是实实在在的。以前每天写代码 6 小时、开会 2 小时;现在定义需求 1 小时、审查代码 2 小时、开会 2 小时,剩下的时间思考战略或者休息。产出反而更高了。

10 分钟快速启动

最快的上手方式:把整套需求描述给 OpenClaw,让它自动搭建。它会创建脚本、设置目录结构、配置监控程序。核心文件包括:

  • .clawdbot/active-tasks.json:任务记录表
  • scripts/monitor-agents.sh:监控脚本
  • scripts/spawn-agent.sh:启动 AI 程序员的脚本
  • .clawdbot/context/:业务知识库目录

第一次运行时系统会问你用哪些 AI 模型、代码在哪里、怎么访问数据库,回答完就能开始工作。

Elvis 说得好:不要把 AI 当廉价员工,要把它当力量放大器。你做最重要的事——理解客户、定义产品、做架构决策;AI 接管重复性的编码、测试、文档工作。这套系统的核心不是省钱,而是让一个人能做到原来一个团队才能做到的事。