Manus:文件系统就是无限记忆

Manus 的思路在四个方案里最跳脱。它没在上下文窗口上做文章,直接换了个维度解题:把易失的上下文转化为持久存储。

具体做法是把文件系统当成智能体的"外挂大脑"。模型执行任务时主动把重要信息写到文件,需要时再读回来。比如处理一个网页内容,可以从上下文中移除整个网页,只保留一个 URL,后面需要时重新访问。信息没丢,只是被"卸载"到了外部。

更值得关注的是任务分解机制。一个复杂目标被拆成多个独立子任务,每个子任务跑一个新进程,进程间通过文件读写协作,而不是共享同一个上下文。这特别像微服务架构——每个进程的上下文都很小很干净,不会出现一个巨大上下文把模型搞晕的情况。

适用场景很明确:复杂的、长周期的、需要跟外部环境深度交互的任务。比如查阅几十个网页做调研报告,或者执行跨多步骤的自动化流程。

OpenAI:标准化的会话管理工具箱

OpenAI 的方案更像官方最佳实践。通过 Agents SDK,开发者用标准化方式管理会话状态,核心是 Session 对象,反复调用 session.run(),SDK 自动处理历史记录和上下文长度。

两种管理策略各有代价:

  • 修剪模式:只保留最近 N 轮对话,更早的直接丢。零延迟、零失真,但会突然"遗忘"早期关键信息。第 3 轮说的需求,到第 20 轮可能完全不记得了。
  • 总结模式:把旧对话压缩成摘要。能保留长期记忆,但引入额外延迟和成本。这里有个坑——"上下文中毒",一旦摘要出错,后面所有步骤都会被带偏。

ChatGPT 近期推出的原生记忆功能算是一个有意思的变体,模型在对话中主动识别并保存关键信息,未来对话自动调用,本质上是一种更隐式的 RAG。

对大多数聊天应用和工具调用场景来说,这套方案够用且成熟。

OpenClaw:为"永不停止"设计的激进压缩

OpenClaw 的设计目标很极端:让智能体能长时间自主运行,几个小时甚至更久。为此在上下文管理上采取了最激进的策略,靠两板斧——Compaction(压缩)和 Pruning(修剪)。

Compaction 对过去的对话做有损摘要,随着任务推进,早期对话被压缩成越来越简短的概要。上下文不会爆,但原始信息的保真度持续下降。Pruning 则对工具输出做实时裁剪,一个工具返回 500 行日志,可能只保留关键的 20 行,其余直接丢弃。

被压缩掉的历史信息会通过 RAG 混合搜索索引起来,需要时检索找回。但说实话,检索找回的信息和原始上下文中的信息,精确度不在一个量级。持久化方面用 JSONL 历史记录和 RAG 索引保存跨会话信息,轻量但搜索质量完全取决于索引和嵌入效果。

设计哲学一句话概括:宁可丢细节,也要保续航。适合资源受限环境下的超长自治任务。

Claude Code:用缓存换精度的无损方案

Claude Code 走了一条完全不同的路——不压缩、不摘要,充分利用 Claude 模型本身的长上下文能力和缓存机制,尽可能保留所有原始信息。

核心武器是 Prompt Caching。开发任务中大量信息是反复出现的:项目结构、库函数定义、代码规范。Claude Code 把这些公共前缀缓存起来,后续交互不需要重新处理。这极大降低了维持大上下文的成本和延迟。

另一个重要设计是 CLAUDE.md 文件,作为系统级持久化指令,每次启动自动加载。它确保智能体每次会话开始都能获得一致的、高优先级的指导信息,不会被当作普通对话历史被压缩掉。

这个方案在代码场景的优势非常明显。改代码需要极高精度,你不希望智能体在第 20 步修改代码时已经忘了第 3 步的上下文。代价是对模型原生上下文窗口要求高,缓存虽然降成本,绝对值依然不低。

四种方案的核心取舍

把四种方案放在一起,本质上是四种不同的"用什么换什么":

方案 策略 换取的优势 付出的代价
Manus 文件系统 + 多进程 几乎无限的记忆容量 系统复杂度最高
OpenAI 修剪/总结二选一 标准化程度最高 自定义空间有限
OpenClaw 激进有损压缩 超长续航能力 早期信息保真度下降
Claude Code 大窗口 + 缓存 几乎零信息损失 模型能力和算力要求最高

对独立开发者构建 Agent 的启示

如果你正在搭建自己的 AI 智能体,这四种方案提炼出几个关键认知:

  • 上下文管理不是"可选优化",而是架构核心。它决定了你的智能体能处理多复杂的任务、跑多久、保持多高精度。
  • 文件系统是被严重低估的记忆介质。让智能体主动把信息写文件、需要时读回来,这个简单策略可以从根本上绕开上下文限制。对独立开发者来说,这可能是实现成本最低的方案。
  • 有损压缩和无损缓存是两种哲学。代码修改类任务倾向无损,长时间自治任务倾向有损压缩。选错了方向,要么精度崩了,要么跑不了多久。
  • 持久化方式差异巨大。从文件系统到 API 原生支持到 RAG 索引到 CLAUDE.md,每种方式的读写成本和检索精度完全不同,选型要看你的数据访问模式。

随着模型上下文窗口持续扩大、推理成本持续下降,各方案的优劣势还会不断变化。但"用什么换什么"这个核心取舍框架,在相当长时间内不会过时。搭 Agent 之前,先想清楚你的场景对复杂度、标准化、续航、精度的优先级排序,比选哪个框架重要得多。