Language Agent 架构的四次进化：从脚手架到自我扩展的极简内核

四个阶段：Agent 架构是怎么走到今天的

回顾过去三年，Language Agent 的工程架构（也叫 harness）经历了四个清晰的阶段。

第一阶段：脚手架时代（2023-2024）。LangChain、ReAct 这类框架，本质上是开发者手动拼装 prompt、工具和记忆模块，搭出一个能完成特定任务的系统。问题在于：脚手架本身越来越重，越来越难拆，模型能力一升级，之前搭好的东西就跟不上了。就像盖房子的脚手架长进了墙里，变成了房子的一部分。

第二阶段：Manus 时代（2025年初）。Manus 把浏览器、代码执行、文件操作等工具整合成一个能自主完成复杂任务的系统。用户给一个目标，agent 自己规划、执行、纠错。它是脚手架时代的巅峰——把所有能力预置进去，但代价是高度黑盒、厂商锁定、成本高，所有人用的是同一套标准配置，没法真正个性化。

第三阶段：Claude Code 时代（2025年中）。Anthropic 把 agent 能力下放给了程序员。程序员退后一步，用自然语言表达架构意图，Claude Code 翻译成代码执行。这是一个开箱即用的生产级系统，但它深度绑定 Claude 模型，跨模型迁移成本高，而且 harness 仍然是人类设计好的——agent 在里面运作，但不能自己维护和扩展这个 harness。

第四阶段：pi.dev / OpenClaw 时代（2025年底至今）。Mario Zechner 对 Claude Code 的 context 膨胀和厂商锁定感到不满，写了 pi——一个极简的 Language Agent 内核：只有4个基础工具（Read/Write/Edit/Bash），一个极短的 system prompt，没有内置的 sub-agents，没有预设的 plan mode。然后 OpenClaw 出现了，把 pi 嵌入持久运行时，打通了即时通讯接口，让 Language Agent 第一次实现了24/7在线。

换句话说，前三个阶段是给 agent 一个越来越大的工具箱，第四阶段是给 agent 一个能自己造工具的工作台。

为什么说这是 Language Agent 的"Linux 时刻"

1991年，Linus Torvalds 在赫尔辛基大学宿舍里写了 Linux kernel 0.01，当时他自己都说"只是个爱好，不会成为大而专业的东西"。pi 的诞生有着相似的气质——极简、开源、不起眼，但切中了一个根本问题。

这个类比在很多层面上都成立：Linux kernel 提供最小的系统调用接口，上层软件自己决定怎么用；pi 提供最小的工具接口，agent 自己决定怎么扩展。Linux 有发行版生态，pi/OpenClaw 也开始有了。

但有一个关键差异：Linux 的底层硬件是确定性的——CPU 不会因为你怎么用它就改变自己的指令集，所以 Linux 可以提供稳定的应用二进制接口（ABI），应用程序不需要因为内核升级而重新编译。

pi 的"底层硬件"是 LLM，而 LLM 在持续快速演化。每一代新模型都在改变能力边界和最优工作方式。在一个底层不断变化的内核上，怎么建立稳定的上层接口？

这篇原文给出的答案是 TASTE.md——一种"价值接口"。底层模型在升级，工具使用方式在变，但人对什么是好代码、什么是好设计的判断标准是相对稳定的。TASTE.md 把这些判断标准写下来，让 agent 跨越模型升级仍然能在你的价值空间里正确行动。

对一人公司的实操意义

这套演化逻辑落到独立开发者身上，有几个直接可用的启示：

极简优于预置。与其花时间配置一个功能齐全但笨重的 agent 框架，不如从最小工具集开始，让 agent 根据需要自己扩展。pi 的4个基础工具（读、写、编辑、执行命令）覆盖了绝大多数开发场景。
写好你的 TASTE.md 比调 prompt 更重要。当代码生成变成了廉价资源——用几美金就能让模型实现一整套功能库——真正稀缺的是你知道代码该往哪个方向写。把你在自己领域积累的判断标准、设计偏好、质量底线写成文档，喂给 agent，比反复调试 prompt 的 ROI 高得多。
关注"发行版"生态的发展。OpenClaw 定位类似 Ubuntu——面向最广泛用户的通用发行版，追求24/7在线和完整生态。国内各家大厂也在基于类似架构做自己的封装，深度绑定各自的产品生态。选择哪个"发行版"，本质上是选择你想让 agent 在哪个生态里工作。
模型无关性是长期竞争力。pi 的一个核心设计原则是 model agnostic——不绑定特定模型。对独立开发者来说，避免厂商锁定意味着你可以随时切换到性价比更高的模型，而不需要重写整个工作流。

接下来会发生什么

pi 的创作者 Mario 一直在推进 real-time streaming 能力。现在的 agent 是离散的一问一答模式：输入→推理→输出→下一轮。Real-time streaming 实现后，agent 将变成持续感知、持续推理、持续行动的状态——它能持续感知你的工作环境，持续更新自己的上下文，持续用你的 TASTE 校准自己的判断。

结合 session trees 的持久化记忆、extension 的自我扩展能力，这意味着 Language Agent 正在从"工具"变成"持续在线的协作者"。

对于想用 AI 搭建一人公司的人来说，现在值得做的事情很具体：跑一遍 pi 或 OpenClaw 的部署流程，把自己领域的判断标准写成一份 TASTE.md，然后观察 agent 在这个价值框架下的表现。代码越来越便宜，品味才是真正的护城河。