四个阶段:Agent 架构是怎么走到今天的

回顾过去三年,Language Agent 的工程架构(也叫 harness)经历了四个清晰的阶段。

第一阶段:脚手架时代(2023-2024)。LangChain、ReAct 这类框架,本质上是开发者手动拼装 prompt、工具和记忆模块,搭出一个能完成特定任务的系统。问题在于:脚手架本身越来越重,越来越难拆,模型能力一升级,之前搭好的东西就跟不上了。就像盖房子的脚手架长进了墙里,变成了房子的一部分。

第二阶段:Manus 时代(2025年初)。Manus 把浏览器、代码执行、文件操作等工具整合成一个能自主完成复杂任务的系统。用户给一个目标,agent 自己规划、执行、纠错。它是脚手架时代的巅峰——把所有能力预置进去,但代价是高度黑盒、厂商锁定、成本高,所有人用的是同一套标准配置,没法真正个性化。

第三阶段:Claude Code 时代(2025年中)。Anthropic 把 agent 能力下放给了程序员。程序员退后一步,用自然语言表达架构意图,Claude Code 翻译成代码执行。这是一个开箱即用的生产级系统,但它深度绑定 Claude 模型,跨模型迁移成本高,而且 harness 仍然是人类设计好的——agent 在里面运作,但不能自己维护和扩展这个 harness。

第四阶段:pi.dev / OpenClaw 时代(2025年底至今)。Mario Zechner 对 Claude Code 的 context 膨胀和厂商锁定感到不满,写了 pi——一个极简的 Language Agent 内核:只有4个基础工具(Read/Write/Edit/Bash),一个极短的 system prompt,没有内置的 sub-agents,没有预设的 plan mode。然后 OpenClaw 出现了,把 pi 嵌入持久运行时,打通了即时通讯接口,让 Language Agent 第一次实现了24/7在线。

换句话说,前三个阶段是给 agent 一个越来越大的工具箱,第四阶段是给 agent 一个能自己造工具的工作台。

为什么说这是 Language Agent 的"Linux 时刻"

1991年,Linus Torvalds 在赫尔辛基大学宿舍里写了 Linux kernel 0.01,当时他自己都说"只是个爱好,不会成为大而专业的东西"。pi 的诞生有着相似的气质——极简、开源、不起眼,但切中了一个根本问题。

这个类比在很多层面上都成立:Linux kernel 提供最小的系统调用接口,上层软件自己决定怎么用;pi 提供最小的工具接口,agent 自己决定怎么扩展。Linux 有发行版生态,pi/OpenClaw 也开始有了。

但有一个关键差异:Linux 的底层硬件是确定性的——CPU 不会因为你怎么用它就改变自己的指令集,所以 Linux 可以提供稳定的应用二进制接口(ABI),应用程序不需要因为内核升级而重新编译。

pi 的"底层硬件"是 LLM,而 LLM 在持续快速演化。每一代新模型都在改变能力边界和最优工作方式。在一个底层不断变化的内核上,怎么建立稳定的上层接口?

这篇原文给出的答案是 TASTE.md——一种"价值接口"。底层模型在升级,工具使用方式在变,但人对什么是好代码、什么是好设计的判断标准是相对稳定的。TASTE.md 把这些判断标准写下来,让 agent 跨越模型升级仍然能在你的价值空间里正确行动。

对一人公司的实操意义

这套演化逻辑落到独立开发者身上,有几个直接可用的启示:

  • 极简优于预置。与其花时间配置一个功能齐全但笨重的 agent 框架,不如从最小工具集开始,让 agent 根据需要自己扩展。pi 的4个基础工具(读、写、编辑、执行命令)覆盖了绝大多数开发场景。

  • 写好你的 TASTE.md 比调 prompt 更重要。当代码生成变成了廉价资源——用几美金就能让模型实现一整套功能库——真正稀缺的是你知道代码该往哪个方向写。把你在自己领域积累的判断标准、设计偏好、质量底线写成文档,喂给 agent,比反复调试 prompt 的 ROI 高得多。

  • 关注"发行版"生态的发展。OpenClaw 定位类似 Ubuntu——面向最广泛用户的通用发行版,追求24/7在线和完整生态。国内各家大厂也在基于类似架构做自己的封装,深度绑定各自的产品生态。选择哪个"发行版",本质上是选择你想让 agent 在哪个生态里工作。

  • 模型无关性是长期竞争力。pi 的一个核心设计原则是 model agnostic——不绑定特定模型。对独立开发者来说,避免厂商锁定意味着你可以随时切换到性价比更高的模型,而不需要重写整个工作流。

接下来会发生什么

pi 的创作者 Mario 一直在推进 real-time streaming 能力。现在的 agent 是离散的一问一答模式:输入→推理→输出→下一轮。Real-time streaming 实现后,agent 将变成持续感知、持续推理、持续行动的状态——它能持续感知你的工作环境,持续更新自己的上下文,持续用你的 TASTE 校准自己的判断。

结合 session trees 的持久化记忆、extension 的自我扩展能力,这意味着 Language Agent 正在从"工具"变成"持续在线的协作者"。

对于想用 AI 搭建一人公司的人来说,现在值得做的事情很具体:跑一遍 pi 或 OpenClaw 的部署流程,把自己领域的判断标准写成一份 TASTE.md,然后观察 agent 在这个价值框架下的表现。代码越来越便宜,品味才是真正的护城河。