Google开源Always-On Memory Agent：用轻量LLM模拟人脑记忆，让AI不再"失忆

现有记忆方案为什么都不够用

给AI加记忆这件事，业界已经探索了几条路，但每条都有明显短板。

向量数据库 + RAG：把信息存进去，查询时做相似度检索再喂给模型。问题在于太被动——信息只是躺在那里，系统不会主动发现信息之间的关联，也不会产生新的洞察。相当于把书堆进图书馆，但从来没人整理分类。

对话总结：每次聊完让AI压缩一下重点。问题是细节在压缩中丢失，而且不同对话之间毫无关联。十年后回头看日记摘要，只知道"今天很开心"，但完全忘了为什么。

知识图谱：用实体和关系构建一张大网。理论上很美，实践中太贵。搭建和维护都需要大量资源，复杂度很容易失控。

这三种方案的共同问题是：只做了"存储"，没有做"整合"。而人类大脑的工作方式恰恰相反——我们在睡眠时，大脑会回放白天的经历，把新旧知识连接起来，保留重要的，压缩重复的。真正的记忆不是存储，而是理解、连接和整合。

Google的这个项目核心思路很直接：让AI像人脑一样，在后台持续处理、整合、连接信息。整个系统由三个Agent分工协作，对应三个阶段。

系统支持27种格式的输入——文本、图片、音频、视频、PDF都行。对每条输入，系统自动提取结构化信息：摘要、涉及的实体、所属主题、重要程度评分。

举个例子，你输入一段内容："Anthropic报告显示，62%的Claude使用与代码相关。AI代理是增长最快的类别。"系统会输出：摘要、实体（Anthropic、Claude、AI代理）、主题（AI、代码生成、代理）、重要性评分0.8。

信息投喂有三个入口：把文件丢进 ./inbox 文件夹（5-10秒内自动处理）、通过Streamlit界面上传、或者通过HTTP API推送。

这是整个系统最关键的部分。默认每30分钟，系统自动运行一次整合任务，把这段时间收集的记忆拿出来，寻找它们之间的关系，生成你可能没注意到的洞察。

假设你有这四条记忆：

系统会发现：代理的可靠性问题本质上是记忆架构不行（记忆1和3的关联）；降低成本才能规模化部署代理（记忆2和1的关联）；智能收件箱就是重建式记忆的一个应用场景（记忆3和4的关联）。最终输出一个综合洞察："下一代AI工具的瓶颈，是从静态RAG到动态记忆系统的转变。"

这种语义层面的"连接"能力，是向量数据库做不到的。向量数据库只做相似度匹配，不做推理。

系统会读取所有的记忆和整合洞察，综合出答案，并且每个观点都标注来源。比如你问"我应该关注什么"，它不会给你一个笼统的回答，而是带着具体来源引用的优先级建议——哪条来自记忆2，哪条来自记忆3，清清楚楚。这种可溯源的回答方式，让你能判断AI的推理是否靠谱。

这个系统是24小时不间断运行的，成本和速度比"智商"更重要。Gemini Flash-Lite延迟低，适合持续后台运行；每次调用成本极低，全天候运行费用可控；提取结构、找关系、综合答案这些任务，它的能力完全够用。当然，你也可以替换成其他模型，比如GLM-5、Kimi、MiniMax等。

整个安装流程非常简洁。设置好API密钥后启动服务，系统会自动监控 ./inbox/ 文件夹处理新文件，每30分钟整合一次记忆，并在 http://localhost:8888 提供查询服务。如果需要图形界面，还有一个Streamlit面板可用。

技术栈：Google ADK + Gemini 3.1 Flash-Lite + SQLite + Streamlit，许可证为MIT。项目托管在GitHub的GoogleCloudPlatform/generative-ai仓库下。

对于独立开发者和一人公司来说，这个项目指向一个值得认真思考的方向：你每天产生的碎片化信息——对话记录、笔记、文档、邮件——如果有一个系统能持续地把它们连接起来并主动发现洞察，AI助手的价值就从"回答问题"升级到"发现你没看到的东西"。这对于需要一个人处理大量信息流的独立创业者尤其关键。

把这个项目接入你现有的AI工作流（比如OpenClaw），让它作为持久记忆层运行，是一个成本低但潜在回报高的实验。真正的智能不是记住所有东西，而是知道什么重要，以及为什么重要。