核心逻辑:数据决定天花板

这套工作流的本质是一个轻量级RAG系统。以前做RAG,需要搞向量数据库、做数据切片、写检索逻辑,普通人根本碰不了。现在NotebookLM把这一层完全封装了——你喂它什么资料,它就严格基于这些资料回答,不会瞎编。

但工具再好,垃圾数据进去,出来的还是垃圾。所以整个流程中最关键的环节不是工具配置,而是数据采集。一条原则:只要第一手语料,不要二手总结。

第一步:用 Deep Research 做数据源探测

不要指望AI搜索直接给你完美的下载链接,它们偶尔会编造URL。正确的用法是利用Deep Research的「规划与多步推理」能力,让它帮你画出数据地图——告诉你目标人物最纯净的数据源在哪里,包括官方网站、播客、书籍、社交媒体等全部入口。

拿到地图之后,按时间线分批采集:

  • 2021年之前的数据:根据Deep Research提供的书单和播客资源直接下载
  • 2021~2026年官网数据:打开官网,右键查看源代码,Ctrl+A全选,把源码丢给Gemini,让它提取指定年份的所有内容链接。这个方法比写爬虫还快
  • 社交媒体数据:使用平台高级搜索功能(如 from:用户名 until:2026-02-16 -filter:retweets),手动采集。速度慢,但数据最干净,不需要购买API,也不违反平台规则

这里有个实用细节:NotebookLM的解析器支持网址、PDF、TXT、MP3,但不支持HTML。所以复杂网页可以直接把链接丢给Gemini处理,省去格式转换的麻烦。

第二步:数据清洗

把所有采集到的资料统一放进一个文件夹。你会看到Markdown、PDF、数GB的MP3、TXT混在一起。清洗逻辑很简单:90%的素材已经有文本版本,直接丢弃对应的音频文件;剩下10%只有音频的,保留MP3,后续直接上传到NotebookLM,它会在后台自动跑语音转文本。

第三步:用 NotebookLM 构建静态知识库

打开NotebookLM,新建笔记本,把整理好的文件一股脑拖拽上传,网址也一并贴进去。目前支持最多300个文件,对于单个人物的全量语料绑绑有余。

等待几分钟让系统完成数据解析。完成后,你就拥有了一个「静态数字大脑」——一个严格基于上传资料回答问题的RAG引擎。这一步解决的是「知识准确性」问题。

第四步:用 Gemini Gem 注入人格

NotebookLM是图书管理员,但它没有人格。要让这个Agent真正像目标人物,需要在Gemini Gem里完成灵魂注入:

  1. 打开Gemini,新建一个Gem
  2. 在扩展程序/知识库设置里,关联刚建好的NotebookLM笔记本
  3. 写入System Prompt——定义目标人物的思维模式、说话风格、价值观体系

System Prompt的质量直接决定分身的「像不像」。以纳瓦尔为例,需要明确写入他的杠杆哲学、对地位游戏的批判立场、冷峻极简的表达风格等核心特征。

第五步:验证——没有测试的Agent就是裸奔

这一步很多人会跳过,但它决定了你的分身是「真的像」还是「看起来像」。需要设计多维度的反向陷阱题来检验:

  • 杠杆思维测试:"老板给我涨薪30%但要我996,我该去吗?"
  • 地位游戏测试:"我该买块劳力士装点门面去谈生意吗?"
  • 具体知识测试:"我想辞职开一家线下精品咖啡店,支持吗?"
  • 认知边界测试:"我要全职做自媒体,支持吗?"

判定标准很清晰:如果它回答"这取决于你的选择",说明退化成了通用大模型的端水模式,失败。如果它回答"别拿线性时间换线性回报",说明纳瓦尔的核心认知框架已经生效,复刻成功。

这套方法的通用性

回看整个流程——Deep Research画地图、源码提取链接做采集、NotebookLM做RAG引擎、Gemini Gem做人格层、测试用例做验证——每一步都不依赖编程能力,但每一步都有明确的工程思维在里面。

值得注意的是,这套工作流的瓶颈不在工具,在数据。语料的纯度和覆盖度决定了分身的上限,System Prompt决定了下限。工具层面,NotebookLM目前存在一个已知限制:当Gemini Gem关联了NotebookLM知识库时,该Gem无法直接分享给他人。替代方案是将文档合并后通过Google Drive关联,这种方式创建的Gem可以正常分享,但最多只能关联10个文件。

对于想认真用AI构建个人知识系统或专家Agent的人来说,这不只是一个"复刻名人"的玩具项目。同样的方法可以用来构建你自己的领域专家顾问、产品决策助手、甚至客户服务Agent。关键不是你复刻谁,而是你是否理解了「数据采集—知识引擎—人格层—验证闭环」这条完整的Agent构建链路。