出发点:不是聊天机器人,是"活的数据系统"

市面上大部分"AI分身"产品做的事情,本质上是克隆——把你某个时间点的语料喂给模型,生成一个定格的副本。它不会成长,不会变化,就像一张照片。

这里要搭建的系统不一样。它是一个持续运行的Agent,24/7自动采集你的对话、行为、决策,不断更新对"你"的理解。换句话说,它不是拍一张快照,而是在拍一部纪录片。

这个区别决定了架构设计上的根本差异:你需要的不是一次性的prompt engineering,而是一个有采集层、存储层、分析层和演化机制的完整系统。

数据模型:用四层结构描述一个"人"

要让AI真正理解你,首先得回答一个问题:是什么让你成为你?

不是身体——细胞每7年换一轮。不是记忆——你忘了很多事,但你还是你。不是知识——学了同样知识的人不会变成你。

这套系统用四层模型来定义一个完整的"人":

  • 事实层:你的经历、背景、关系网络等客观信息
  • 价值层:你的信念、价值观、原则——决定你"为什么做"
  • 模式层:你的思维方式、决策习惯、情绪反应——决定你"怎么做"
  • 表达层:你的说话风格、用词偏好、幽默方式——决定你"像不像你"

缺少任何一层,出来的都不是"你"。大部分AI分身只做了表达层(模仿说话风格),顶多加一点事实层(喂入个人资料),所以总觉得"像但不是"。

数据采集:多源、自动、不强迫

单一数据源描绘不出完整的你。系统从多个维度并行采集:

对话提取(核心通道)

日常对话是最有价值的数据来源。每次对话结束后,Agent自动提取关键信息:

  • 出现"我觉得""我认为"等表达 → 提取为观点/价值观
  • 出现"我决定""我选了"等表达 → 提取为决策记录
  • 出现情绪词汇 → 提取为情绪状态
  • 提到某个人 → 更新关系图谱

系统还会在合适的场景下自然追问一句,比如你刚做完一个重要决定,它可能会问"做这个选择时,你最看重的是什么?"——不强求回答,跳过也没关系。

行为推断

人嘴上说什么不重要,时间和钱花在哪里才是真相。

日程分析:如果你每周花10小时在某件事上,但从来不提它很重要——系统会记录这个矛盾。财务分析:你说"健康最重要",但健身卡办了三年没去过——这也是有价值的数据点。

系统化问答

150道以上的问题,覆盖20个分类,确保没有盲区:

基础分类(16类):价值观、关系、童年、恐惧、梦想、死亡、遗憾、习惯、偏好、信念、情绪、决策、工作、金钱、健康、哲学

深度分类(4类)

  • 假设性问题:"如果中了1000万你会怎么做"
  • 潜意识探索:"最近做过什么梦"
  • 他人视角:"你朋友会怎么形容你"
  • 传承问题:"你希望被记住的是什么"

采集策略也很讲究:每天早上50%概率推送一个随机问题,优先从覆盖率低的分类抽取,不强求回答,已答或已跳过的不重复。这个节奏设计得很克制——不会让人觉得在被审讯。

高级追踪:矛盾、演变、情绪基线

这套系统最有意思的设计哲学是:矛盾是特征,不是错误。

矛盾追踪

今天说"钱不重要",明天为了钱焦虑——传统数据系统会把这当作冲突需要修正。但这个系统会把两条都记下来,标记为矛盾,因为真实的人本来就是矛盾的。

观点演变

同一个话题,你五年前和现在的看法可能完全不同。系统不是只保留最新版本,而是记录完整的演变轨迹——什么时候变的,可能因为什么事件变的。这条时间线本身就是理解"你"的重要数据。

情绪基线

先建立你的情绪基线(平时大概什么状态),然后才能识别异常。比如你平时语气偏乐观,突然连续几天用词消极,系统能捕捉到这个变化。

决策模型

从你的决策记录中提取模式:你做选择时更看重什么?在哪些情境下倾向冒险,哪些情境下偏保守?这些模式比任何单条记录都更接近"你"。

安全设计:比银行密码还重要

这类数据的敏感程度远超一般个人信息。它包含你的价值观、恐惧、决策模式、对他人的评价、内心矛盾——泄露的后果比任何其他数据都严重。

保护措施需要做到几个层面:

  • 物理隔离:数据只存本地,只有本机用户可访问
  • 禁止索引:不被语义搜索或全文搜索覆盖,搜索关键词不会返回结果
  • 禁止外传:永不进入LLM上下文(除了专门的提取任务),永不在对话中引用原文,永不发送到外部渠道,子Agent禁止访问
  • 加密备份:备份数据全程加密

访问控制也需要分级:只有核心Agent有写入权限,读取权限按需最小化分配。

落地路径:三个阶段

阶段一:数据积累(1-2年)
目标是数据完整度超过60%。重点是把多源采集跑通,持续补充盲区。这是最扎实也最无聊的阶段,但没有这个基础,后面都是空中楼阁。

阶段二:模型训练
基于积累的数据,通过Fine-tune或RAG+Prompt的方式创建可交互的"数字人"。验证标准很简单:让熟悉你的人跟它聊,看能不能分辨。

阶段三:持续演化
数字版本不再依赖你手动输入,而是能持续学习、自我更新。到这一步就进入了真正的哲学问题——它还是"你"吗?

核心设计原则

回顾整个系统,有三条设计原则值得任何搭建个人Agent的人参考:

  1. 原生数据优先——不是让AI猜你是什么样的人,而是直接记录你的原话、原文、原行为。AI的角色是整理和分析,不是编造。

  2. 矛盾是特征——不要试图让数据"自洽"。真实的人充满矛盾,抹平矛盾就是在删除真实性。

  3. 演变是价值——不要只保留最新状态。变化的轨迹本身就是理解一个人最重要的维度。

这三条原则其实也适用于所有个人知识管理和AI Agent设计:别急着让AI替你总结,先把原始数据存好;别把"不一致"当bug修,那可能是最有价值的信号;别只看当前快照,时间维度上的变化才是深层洞察的来源。

对独立开发者来说,这套系统不需要一步到位。从最简单的开始——给你现有的AI助手加一个对话提取模块,每次聊完自动提取观点和决策记录,存到本地JSON文件里。跑三个月回头看,你会对"原来我是这样的人"这件事有全新的认识。