从状态机到多智能体协作：一套连续运行10小时的本地AI编程工作流是怎么炼成的

这套系统从2.0的「单线程状态机」演进到3.0的「Agent Team多角色协作」，核心解决的是AI编程中最现实的痛点：上下文丢失、需要人工保姆式看护、以及复杂项目中的多模块协调问题。实战项目是一个TikTok UGC视频生成平台（TKCreator），涉及支付、鉴权、视频生成API对接和自动化测试。

AI编程的真实困境

用过Cursor、Windsurf、Claude Code的人大概都有体会：AI编程工具太「粘人」了。它写错一行代码你得人工纠正，上下文一长就开始「失忆」，前面写好的配置后面就忘了。名义上是AI帮你写代码，实际上是你给AI当保姆。

单纯靠一段超长Prompt让AI完成项目，最初10%的工作量还行，但时间一长，上下文爆炸，逻辑就开始混乱。想做到真正的「全自动开发」——把需求扔给AI，它自己拆解、执行、验证，只在关键节点需要人确认——必须引入架构层面的约束。

2.0架构：基于文件的状态管理

核心思路很简单：不要让AI记在脑子里，要让它记在文件里。

把AI当成「轮班工人」。每个AI实例启动时都是全新的，它不需要知道上一个AI跟用户聊了什么，只需要看交接文档。整套系统由以下几个核心文件组成：

feature_list.json（工单系统）

AI的任务清单，必须用JSON格式——模型对JSON的破坏性比Markdown小得多。

{
  "features": [
    {
      "id": "F-001",
      "category": "backend",
      "description": "实现 Sora2 视频生成 API 对接",
      "status": "pending",
      "passes": false
    }
  ]
}

progress.txt（交接日志）

记录高层级的决策和进度。例如："2026-02-16: 鉴权模块已完成，但Token刷新逻辑有Bug，需修复。"

CLAUDE.md（系统入口）

AI的行为准则，每次启动都会读取一次来恢复记忆：

# AI 自治开发协议

## 核心工作流
每次启动时，必须严格按顺序执行：
1. **环境自检**：运行 `source init.sh`。
2. **状态同步**：读取 `feature_list.json` 和 `progress.txt`。
3. **任务选择**：选择优先级最高且 `status: pending` 的任务。
4. **严格验证**：修改 UI 后必须截图验证；修改逻辑后必须跑通测试。

init.sh（一键启动脚本）

把项目启动所需的命令集中在一起，防止AI每次都要重新摸索怎么跑项目。

自动化引擎：无限循环驱动

有了状态文件还不够，还需要一个脚本来驱动AI不断循环工作。通过一个 run_autonomy.py 脚本实现，逻辑很直接：

读取 feature_list.json，找到下一个待处理任务
调用 Claude Code CLI，把任务发给AI
加上 --dangerously-skip-permissions 参数，允许AI全自动读写文件和执行命令，不需要人工逐次确认
任务成功则更新状态；失败则回滚Git，记录日志，休息5秒，继续下一轮

这就是2.0的本质：把开发过程变成一个状态机。 AI不再是对话者，而是执行者。这套系统在实战中顺利完成了TKCreator的大部分基础功能。

3.0：引入Agent Team，多角色并发协作

到了生产环境对接阶段——对接真实API、全链路测试——单线程的2.0开始吃力了。后端写API时前端需要配合改状态，单线程只能切来切去；测试报错时AI容易陷入「自我怀疑」反复改代码，而不是去检查环境配置；任务同时涉及Python、TypeScript、SQL、Shell，让单个模型顾此失彼。

3.0的解法是启用Agent Team：让AI变成一个团队，专人专事。

团队结构设计：

Lead Agent（CTO）：负责统筹，读取任务列表、规划依赖、做Code Review，不写具体代码，只看架构
Backend Agent（后端专家）：专注Python、FastAPI、Supabase，只负责写API和对接外部接口，不加载前端代码，上下文保持干净
Frontend Agent（前端专家）：专注Next.js、Tailwind、React Query，只负责UI和接口调用
QA Agent（测试专家）：使用Playwright做E2E测试，打开Headless Chrome模拟用户操作。这个角色的设计很关键——如果测试挂了，它不会自己修代码，而是把报错信息甩给对应的Agent处理

开启Agent Team的配置方式：

在 ~/.claude/settings.json 中添加：

{
  "experimental": {
    "agent_team": true
  },
  "permissions": {
    "auto_approve_tools": ["TeamCreate"]
  }
}

也可以通过环境变量激活：export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

实战效果

启动3.0后，Lead Agent迅速分配了任务。后端Agent在写FastAPI的Polling Service轮询视频生成状态，前端Agent同时在修改Task Card组件增加骨架屏加载态——两者几乎同时提交代码。

接着QA Agent启动，自动打开浏览器，注册新用户，充值积分，点击生成视频。一分钟后测试报错："Sora2 API返回401 Unauthorized"。QA Agent没有瞎改代码，而是在日志里直接通知Backend Agent："API Key似乎没生效，请检查.env加载逻辑。"Backend Agent随即响应修复。

经过大约40分钟的团队协作，TKCreator的生产环境版本部署完成：

视频生成：Sora2接口调通，视频成功生成并下载到本地
图片生成：Nano Banana的商品图正常展示
积分系统：生成一次扣20分，余额不足时拦截生成请求

值得借鉴的设计思路

这套系统最有价值的不是某个具体工具的用法，而是几个架构决策：用文件而非上下文记忆来管理状态、用JSON而非Markdown作为任务格式降低模型破坏概率、把AI从「对话者」变成「状态机执行者」、以及通过角色分工缩小每个Agent的上下文范围。

对于想用AI做复杂项目开发的独立开发者来说，不妨从2.0的文件状态管理开始尝试——即使不上Agent Team，光是把 feature_list.json + progress.txt + CLAUDE.md 这套交接机制搭起来，AI编程的可控性就会有质的提升。