AI Agent开发的21种设计模式：从裸LLM到自主系统的5级进化路径

你写的可能根本不是 Agent

书里最狠的判断藏在 prologue：大多数人在用的"AI"，只是 Level 0——裸 LLM，没有工具、没有记忆、不会行动。你问它 2025 年奥斯卡最佳影片是哪部，它猜。这种东西不是 Agent。

往上才是真 Agent，分四级。

Level 1 工具使用者：Agent 开始用工具，搜索、API、数据库。但关键不是"能调接口"，而是它自己判断什么时候该调、调什么、结果怎么用。用户问"最近有什么新剧"，Agent 自己意识到这条信息不在训练数据里，主动调搜索工具去找，再合成结果。"自己意识到"这一步，是 Level 1 的门槛。

Level 2 战略思考者：多了规划和 Context Engineering 两样东西。书里对 Context Engineering 的定义很妙：不做信息堆砌，做精心筛选、裁剪、打包上下文。例子是用户要在两个地点之间找咖啡店——Agent 先调地图工具拿到一堆数据，然后判断"下一步只需要街道名称"，把地图输出裁剪成短列表，再喂给本地搜索工具。每一步都在做信息降噪。书里反复强调一句："要让 AI 达到最高准确率，必须给它短小、聚焦、有力的上下文。"

到这个级别，Agent 还能自我反思——干完活后自己审一遍，发现问题自己改。

Level 3 多 Agent 协作：书的立场很明确——别老想着造一个全能 super agent，靠谱的做法是搭团队。项目经理 Agent + 研究员 Agent + 设计师 Agent + 文案 Agent。书里举的例子是新产品发布：一个"项目经理 Agent"做总调度，下发任务给"市场研究 Agent""产品设计 Agent""营销 Agent"。这章画了六种通信拓扑结构，每种适合什么场景都标得清楚。

看完这四级，我突然明白为什么很多人说"我的 Agent 不好用"。模型没问题，问题是你在把它当聊天机器人用，它可能连 Level 1 都没到。

Context Engineering：被严重低估的概念

传统 Prompt Engineering 只管"你怎么问"。Context Engineering 管的是"问之前，Agent 的眼前摆着什么"。书里把它拆成四层：

System prompt：定义 Agent 是谁、什么语气、什么边界。大多数人只写到这一层就停了。
外部数据：RAG 检索到的文档、工具调用返回值、实时 API 数据。大部分人卡在这里——知道要喂数据，但不知道怎么喂才不会把模型淹没。
隐式数据：用户身份、交互历史、环境状态。你没明说但 Agent 应该知道的东西。比如让 Agent 给 John 发邮件确认明天的会议，它应该知道明天的会议是什么、John 是谁。
反馈回路：Agent 每次输出之后，自动评估质量、调整下次的上下文策略。Google 的 Vertex AI Prompt Optimizer 就是这个思路的工程化实现。

很多人花一周时间写 prompt，但只动了第一层。真正的差距在后面三层。

Reflection：两个 Agent 比一个好，但要分开

这是书里实战价值最高的 Pattern。Reflection 的核心很简单：Agent 干完活后自己审一遍，发现问题自己改。但实现方式有讲究——Producer 和 Critic 必须用两个不同的 Agent，给不同的 system prompt。同一个 persona 审自己的东西，一定有盲区。让同一个 LLM 先写代码再审查自己写的代码，它大概率会说"挺好的"。

书里给的代码示例很直接：

Producer 的 prompt 是"你是一个 Python 开发者，写一个计算阶乘的函数，处理边界条件和异常"
Critic 的 prompt 是"你是一个吹毛求疵的高级工程师，逐行审查代码……如果完美就输出 CODE_IS_PERFECT，否则列出所有问题"
然后一个 for 循环：Producer 写 → Critic 审 → Producer 改 → Critic 再审 → 直到满意或达到最大迭代

成本问题不能忽略：每次反射循环都是一次新的 LLM 调用，对话历史还在持续膨胀，上下文窗口被前期版本和批评意见占满，实际可用的推理空间在缩小。书里给的建议是设一个合理的最大迭代次数（默认 3），Critic 满意就停，不追求完美。

写文章、做计划、总结文档、解决逻辑题，Producer-Critic 模型都能套。核心逻辑一样：先产出，后审查，再修正。

Multi-Agent 不是越复杂越好

很多人搭 Multi-Agent 时花 80% 时间在通信协议上，忘了问一个更基本的问题：这个任务真的需要多个 Agent 吗？

书里画了六种拓扑，但实际场景三种就够：

单 Agent：任务能拆成互不依赖的子问题，每个 Agent 自己搞定。简单、好维护。
对等网络（Peer-to-Peer）：Agent 之间直接通信，没有中心节点。去中心化，容错性好，但协调成本高，容易乱。
Supervisor（中心调度）：一个 Supervisor Agent 管一群 Worker。层级清晰，好管理，但 Supervisor 是单点故障也是性能瓶颈。

剩下三种（Supervisor-as-Tool、层级式、自定义混合）是组合变体。书里说得很实在：拓扑结构取决于任务复杂度。任务拆得越碎，通信成本越高，到一定程度 Supervisor 反而比层级式效率更高。

更直接的判断是：Level 2 的单 Agent + Reflection 往往已经够用了。Level 3 是给单 Agent 确实搞不定的场景准备的。大多数人的问题不是 Agent 不够多，是一个 Agent 都没调好。

Memory 三层模型

记忆该怎么分层是个老问题，书里给了清晰答案：

Session（会话层）：当前对话的上下文窗口。最短的记忆，对话结束就没了。长上下文模型只是放大了这个窗口，本质上仍是临时的，而且每次推理都要处理整个窗口，又贵又慢。
State（状态层）：当前任务进行中的临时数据。比 Session 长，但任务结束就清理。Google ADK 的 State 机制做了完整示例。
Memory（持久层）：跨会话、跨任务的长期记忆。用户偏好、学到的经验、重要的历史决策，存数据库或向量库，语义检索。书里强调一个关键点：Memory 不只是存下来，还要设计"存什么、什么时候存、怎么检索"的整套策略。存太多噪声大，存少了不够用。

很多人手搓的"状态文件"和"工作区文档"本质上就是在做 State 和 Memory 层。书里只是把这件事框架化了。

五种假设，第五个最离谱

书末提了五个关于 Agent 未来的假设，前四个还算合理：通用型 Agent 从写代码到管项目、深度个性化主动发现需求、具身智能走出屏幕、Agent 成为独立经济实体。

第五个把我震住了——变形 Multi-Agent。你只声明目标，比如"做一个卖精品咖啡的电商生意"。系统自动决定：先创建"市场研究 Agent"和"品牌 Agent"。跑完一轮数据后，自己判断品牌 Agent 不需要了，拆成三个新的："Logo 设计 Agent""建站 Agent""供应链 Agent"。如果建站 Agent 成了瓶颈，系统会自动复制出三个并行 Agent 同时干不同的页面。整个过程中，系统持续自动调优每个 Agent 的 prompt，不断重组团队架构。

书里把它叫"目标驱动的、自我变形的多 Agent 系统"。它不是在执行你写的计划，是在自己生成计划、自己调整计划、自己重组执行团队。人类只声明"要什么"。

这条赛道目前还没看到真正的壁垒。但路径已经清晰，剩下的是工程化。

三件可以马上做的事

读完这本书有三个立刻可以落地的动作。

第一，给你现在的 Agent 加一个 Critic。 不管你用的是 Claude Code、CrewAI 还是自己搭的框架，在现有 workflow 末尾加一步：让另一个 Agent（用不同的 system prompt）审查上一步的输出。代码生成加代码审查，文章撰写加事实核查，计划制定加可行性评审。多一次 LLM 调用，质量往往翻倍。

第二，从 Prompt Engineering 升级到 Context Engineering。 回头看你写给 Agent 的指令文件。如果全是"你要怎么做"的规则，缺少"你现在面对什么环境"的上下文，补上。告诉 Agent 它现在在哪个项目里、之前做过什么决定、用户偏好是什么。AGENTS.md 和 Context Engineering 是同一件事的两个表述。

第三，先别急着上 Multi-Agent。 把你的单 Agent 做到 Level 2：有工具、有 Reflection、有 Memory。绝大多数实际场景，Level 2 的单 Agent 加 Producer-Critic 加 Context Engineering 已经够用。Level 3 是给真正跨领域、多阶段、需要并行分工的任务准备的。

这本书是 Springer 2025 年出版，代码示例覆盖 LangChain/LangGraph、Google ADK、CrewAI、OpenAI API。前言由 Google Cloud AI VP 撰写，还有 Goldman Sachs CIO 的推荐序。

推荐它的理由不是"全面"，而是读完之后你会意识到：你不需要再发明 Reflection，不需要再猜 Memory 该怎么分层，不需要再试 Multi-Agent 该用哪种拓扑。有人替你画了地图。剩下的就是走。