这套系统从2.0的「单线程状态机」演进到3.0的「Agent Team多角色协作」,核心解决的是AI编程中最现实的痛点:上下文丢失、需要人工保姆式看护、以及复杂项目中的多模块协调问题。实战项目是一个TikTok UGC视频生成平台(TKCreator),涉及支付、鉴权、视频生成API对接和自动化测试。
AI编程的真实困境
用过Cursor、Windsurf、Claude Code的人大概都有体会:AI编程工具太「粘人」了。它写错一行代码你得人工纠正,上下文一长就开始「失忆」,前面写好的配置后面就忘了。名义上是AI帮你写代码,实际上是你给AI当保姆。
单纯靠一段超长Prompt让AI完成项目,最初10%的工作量还行,但时间一长,上下文爆炸,逻辑就开始混乱。想做到真正的「全自动开发」——把需求扔给AI,它自己拆解、执行、验证,只在关键节点需要人确认——必须引入架构层面的约束。
2.0架构:基于文件的状态管理
核心思路很简单:不要让AI记在脑子里,要让它记在文件里。
把AI当成「轮班工人」。每个AI实例启动时都是全新的,它不需要知道上一个AI跟用户聊了什么,只需要看交接文档。整套系统由以下几个核心文件组成:
feature_list.json(工单系统)
AI的任务清单,必须用JSON格式——模型对JSON的破坏性比Markdown小得多。
{
"features": [
{
"id": "F-001",
"category": "backend",
"description": "实现 Sora2 视频生成 API 对接",
"status": "pending",
"passes": false
}
]
}
progress.txt(交接日志)
记录高层级的决策和进度。例如:"2026-02-16: 鉴权模块已完成,但Token刷新逻辑有Bug,需修复。"
CLAUDE.md(系统入口)
AI的行为准则,每次启动都会读取一次来恢复记忆:
# AI 自治开发协议
## 核心工作流
每次启动时,必须严格按顺序执行:
1. **环境自检**:运行 `source init.sh`。
2. **状态同步**:读取 `feature_list.json` 和 `progress.txt`。
3. **任务选择**:选择优先级最高且 `status: pending` 的任务。
4. **严格验证**:修改 UI 后必须截图验证;修改逻辑后必须跑通测试。
init.sh(一键启动脚本)
把项目启动所需的命令集中在一起,防止AI每次都要重新摸索怎么跑项目。
自动化引擎:无限循环驱动
有了状态文件还不够,还需要一个脚本来驱动AI不断循环工作。通过一个 run_autonomy.py 脚本实现,逻辑很直接:
- 读取
feature_list.json,找到下一个待处理任务 - 调用 Claude Code CLI,把任务发给AI
- 加上
--dangerously-skip-permissions参数,允许AI全自动读写文件和执行命令,不需要人工逐次确认 - 任务成功则更新状态;失败则回滚Git,记录日志,休息5秒,继续下一轮
这就是2.0的本质:把开发过程变成一个状态机。 AI不再是对话者,而是执行者。这套系统在实战中顺利完成了TKCreator的大部分基础功能。
3.0:引入Agent Team,多角色并发协作
到了生产环境对接阶段——对接真实API、全链路测试——单线程的2.0开始吃力了。后端写API时前端需要配合改状态,单线程只能切来切去;测试报错时AI容易陷入「自我怀疑」反复改代码,而不是去检查环境配置;任务同时涉及Python、TypeScript、SQL、Shell,让单个模型顾此失彼。
3.0的解法是启用Agent Team:让AI变成一个团队,专人专事。
团队结构设计:
- Lead Agent(CTO):负责统筹,读取任务列表、规划依赖、做Code Review,不写具体代码,只看架构
- Backend Agent(后端专家):专注Python、FastAPI、Supabase,只负责写API和对接外部接口,不加载前端代码,上下文保持干净
- Frontend Agent(前端专家):专注Next.js、Tailwind、React Query,只负责UI和接口调用
- QA Agent(测试专家):使用Playwright做E2E测试,打开Headless Chrome模拟用户操作。这个角色的设计很关键——如果测试挂了,它不会自己修代码,而是把报错信息甩给对应的Agent处理
开启Agent Team的配置方式:
在 ~/.claude/settings.json 中添加:
{
"experimental": {
"agent_team": true
},
"permissions": {
"auto_approve_tools": ["TeamCreate"]
}
}
也可以通过环境变量激活:export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
实战效果
启动3.0后,Lead Agent迅速分配了任务。后端Agent在写FastAPI的Polling Service轮询视频生成状态,前端Agent同时在修改Task Card组件增加骨架屏加载态——两者几乎同时提交代码。
接着QA Agent启动,自动打开浏览器,注册新用户,充值积分,点击生成视频。一分钟后测试报错:"Sora2 API返回401 Unauthorized"。QA Agent没有瞎改代码,而是在日志里直接通知Backend Agent:"API Key似乎没生效,请检查.env加载逻辑。"Backend Agent随即响应修复。
经过大约40分钟的团队协作,TKCreator的生产环境版本部署完成:
- 视频生成:Sora2接口调通,视频成功生成并下载到本地
- 图片生成:Nano Banana的商品图正常展示
- 积分系统:生成一次扣20分,余额不足时拦截生成请求
值得借鉴的设计思路
这套系统最有价值的不是某个具体工具的用法,而是几个架构决策:用文件而非上下文记忆来管理状态、用JSON而非Markdown作为任务格式降低模型破坏概率、把AI从「对话者」变成「状态机执行者」、以及通过角色分工缩小每个Agent的上下文范围。
对于想用AI做复杂项目开发的独立开发者来说,不妨从2.0的文件状态管理开始尝试——即使不上Agent Team,光是把 feature_list.json + progress.txt + CLAUDE.md 这套交接机制搭起来,AI编程的可控性就会有质的提升。