现有记忆方案为什么都不够用

给AI加记忆这件事,业界已经探索了几条路,但每条都有明显短板。

向量数据库 + RAG:把信息存进去,查询时做相似度检索再喂给模型。问题在于太被动——信息只是躺在那里,系统不会主动发现信息之间的关联,也不会产生新的洞察。相当于把书堆进图书馆,但从来没人整理分类。

对话总结:每次聊完让AI压缩一下重点。问题是细节在压缩中丢失,而且不同对话之间毫无关联。十年后回头看日记摘要,只知道"今天很开心",但完全忘了为什么。

知识图谱:用实体和关系构建一张大网。理论上很美,实践中太贵。搭建和维护都需要大量资源,复杂度很容易失控。

这三种方案的共同问题是:只做了"存储",没有做"整合"。而人类大脑的工作方式恰恰相反——我们在睡眠时,大脑会回放白天的经历,把新旧知识连接起来,保留重要的,压缩重复的。真正的记忆不是存储,而是理解、连接和整合。

Always-On Memory Agent的三步架构

Google的这个项目核心思路很直接:让AI像人脑一样,在后台持续处理、整合、连接信息。整个系统由三个Agent分工协作,对应三个阶段。

摄取(Ingest)

系统支持27种格式的输入——文本、图片、音频、视频、PDF都行。对每条输入,系统自动提取结构化信息:摘要、涉及的实体、所属主题、重要程度评分。

举个例子,你输入一段内容:"Anthropic报告显示,62%的Claude使用与代码相关。AI代理是增长最快的类别。"系统会输出:摘要、实体(Anthropic、Claude、AI代理)、主题(AI、代码生成、代理)、重要性评分0.8。

信息投喂有三个入口:把文件丢进 ./inbox 文件夹(5-10秒内自动处理)、通过Streamlit界面上传、或者通过HTTP API推送。

整合(Consolidate)

这是整个系统最关键的部分。默认每30分钟,系统自动运行一次整合任务,把这段时间收集的记忆拿出来,寻找它们之间的关系,生成你可能没注意到的洞察。

假设你有这四条记忆:

  • "AI代理增长很快,但可靠性是个挑战"
  • "Q1优先级:降低推理成本40%"
  • "现有的LLM记忆方案都有缺陷"
  • "智能收件箱的想法:给邮件加持久AI记忆"

系统会发现:代理的可靠性问题本质上是记忆架构不行(记忆1和3的关联);降低成本才能规模化部署代理(记忆2和1的关联);智能收件箱就是重建式记忆的一个应用场景(记忆3和4的关联)。最终输出一个综合洞察:"下一代AI工具的瓶颈,是从静态RAG到动态记忆系统的转变。"

这种语义层面的"连接"能力,是向量数据库做不到的。向量数据库只做相似度匹配,不做推理。

查询(Query)

系统会读取所有的记忆和整合洞察,综合出答案,并且每个观点都标注来源。比如你问"我应该关注什么",它不会给你一个笼统的回答,而是带着具体来源引用的优先级建议——哪条来自记忆2,哪条来自记忆3,清清楚楚。这种可溯源的回答方式,让你能判断AI的推理是否靠谱。

为什么选Gemini Flash-Lite

这个系统是24小时不间断运行的,成本和速度比"智商"更重要。Gemini Flash-Lite延迟低,适合持续后台运行;每次调用成本极低,全天候运行费用可控;提取结构、找关系、综合答案这些任务,它的能力完全够用。当然,你也可以替换成其他模型,比如GLM-5、Kimi、MiniMax等。

五分钟部署

整个安装流程非常简洁。设置好API密钥后启动服务,系统会自动监控 ./inbox/ 文件夹处理新文件,每30分钟整合一次记忆,并在 http://localhost:8888 提供查询服务。如果需要图形界面,还有一个Streamlit面板可用。

技术栈:Google ADK + Gemini 3.1 Flash-Lite + SQLite + Streamlit,许可证为MIT。项目托管在GitHub的GoogleCloudPlatform/generative-ai仓库下。

对一人公司的实际意义

对于独立开发者和一人公司来说,这个项目指向一个值得认真思考的方向:你每天产生的碎片化信息——对话记录、笔记、文档、邮件——如果有一个系统能持续地把它们连接起来并主动发现洞察,AI助手的价值就从"回答问题"升级到"发现你没看到的东西"。这对于需要一个人处理大量信息流的独立创业者尤其关键。

把这个项目接入你现有的AI工作流(比如OpenClaw),让它作为持久记忆层运行,是一个成本低但潜在回报高的实验。真正的智能不是记住所有东西,而是知道什么重要,以及为什么重要。