三个免费工具，零代码搭建任意领域专家的AI数字分身

核心逻辑：数据决定天花板

这套工作流的本质是一个轻量级RAG系统。以前做RAG，需要搞向量数据库、做数据切片、写检索逻辑，普通人根本碰不了。现在NotebookLM把这一层完全封装了——你喂它什么资料，它就严格基于这些资料回答，不会瞎编。

但工具再好，垃圾数据进去，出来的还是垃圾。所以整个流程中最关键的环节不是工具配置，而是数据采集。一条原则：只要第一手语料，不要二手总结。

第一步：用 Deep Research 做数据源探测

不要指望AI搜索直接给你完美的下载链接，它们偶尔会编造URL。正确的用法是利用Deep Research的「规划与多步推理」能力，让它帮你画出数据地图——告诉你目标人物最纯净的数据源在哪里，包括官方网站、播客、书籍、社交媒体等全部入口。

拿到地图之后，按时间线分批采集：

2021年之前的数据：根据Deep Research提供的书单和播客资源直接下载
2021～2026年官网数据：打开官网，右键查看源代码，Ctrl+A全选，把源码丢给Gemini，让它提取指定年份的所有内容链接。这个方法比写爬虫还快
社交媒体数据：使用平台高级搜索功能（如 from:用户名 until:2026-02-16 -filter:retweets），手动采集。速度慢，但数据最干净，不需要购买API，也不违反平台规则

这里有个实用细节：NotebookLM的解析器支持网址、PDF、TXT、MP3，但不支持HTML。所以复杂网页可以直接把链接丢给Gemini处理，省去格式转换的麻烦。

第二步：数据清洗

把所有采集到的资料统一放进一个文件夹。你会看到Markdown、PDF、数GB的MP3、TXT混在一起。清洗逻辑很简单：90%的素材已经有文本版本，直接丢弃对应的音频文件；剩下10%只有音频的，保留MP3，后续直接上传到NotebookLM，它会在后台自动跑语音转文本。

第三步：用 NotebookLM 构建静态知识库

打开NotebookLM，新建笔记本，把整理好的文件一股脑拖拽上传，网址也一并贴进去。目前支持最多300个文件，对于单个人物的全量语料绑绑有余。

等待几分钟让系统完成数据解析。完成后，你就拥有了一个「静态数字大脑」——一个严格基于上传资料回答问题的RAG引擎。这一步解决的是「知识准确性」问题。

第四步：用 Gemini Gem 注入人格

NotebookLM是图书管理员，但它没有人格。要让这个Agent真正像目标人物，需要在Gemini Gem里完成灵魂注入：

打开Gemini，新建一个Gem
在扩展程序/知识库设置里，关联刚建好的NotebookLM笔记本
写入System Prompt——定义目标人物的思维模式、说话风格、价值观体系

System Prompt的质量直接决定分身的「像不像」。以纳瓦尔为例，需要明确写入他的杠杆哲学、对地位游戏的批判立场、冷峻极简的表达风格等核心特征。

第五步：验证——没有测试的Agent就是裸奔

这一步很多人会跳过，但它决定了你的分身是「真的像」还是「看起来像」。需要设计多维度的反向陷阱题来检验：

杠杆思维测试："老板给我涨薪30%但要我996，我该去吗？"
地位游戏测试："我该买块劳力士装点门面去谈生意吗？"
具体知识测试："我想辞职开一家线下精品咖啡店，支持吗？"
认知边界测试："我要全职做自媒体，支持吗？"

判定标准很清晰：如果它回答"这取决于你的选择"，说明退化成了通用大模型的端水模式，失败。如果它回答"别拿线性时间换线性回报"，说明纳瓦尔的核心认知框架已经生效，复刻成功。

这套方法的通用性

回看整个流程——Deep Research画地图、源码提取链接做采集、NotebookLM做RAG引擎、Gemini Gem做人格层、测试用例做验证——每一步都不依赖编程能力，但每一步都有明确的工程思维在里面。

值得注意的是，这套工作流的瓶颈不在工具，在数据。语料的纯度和覆盖度决定了分身的上限，System Prompt决定了下限。工具层面，NotebookLM目前存在一个已知限制：当Gemini Gem关联了NotebookLM知识库时，该Gem无法直接分享给他人。替代方案是将文档合并后通过Google Drive关联，这种方式创建的Gem可以正常分享，但最多只能关联10个文件。

对于想认真用AI构建个人知识系统或专家Agent的人来说，这不只是一个"复刻名人"的玩具项目。同样的方法可以用来构建你自己的领域专家顾问、产品决策助手、甚至客户服务Agent。关键不是你复刻谁，而是你是否理解了「数据采集—知识引擎—人格层—验证闭环」这条完整的Agent构建链路。