翻车现场:三次尝试,三次失败

事情的起因是一条对比 YouMind 和 NotebookLM 生成 PPT 能力的推文,结论是 NotebookLM 完败。作为 NotebookLM 的深度用户,这个结论很难接受,于是用同样的四本 PDF 做了复现测试。

第一次,直接使用原推文中的 Prompt:

这是一份给AI时代创作者的必读书单(4 本 pdf)。
帮我生成一份详细的幻灯片,要求是
幻灯片里除了要把每本书的定位,核心内容说清楚,还要判断这本书适合哪类题材的创作者,更重要的是,为什么这些书里提到的方法可以用AI来帮助实现和落地,如何用AI来帮助实现和落地?

结果比预期更差——NotebookLM 只读了四本书中的一本《Exploratory Writing》,其余三本完全被忽略。

第二次,手动调整了 Prompt,把结构拆成四个部分,明确对应四个 PDF 文件:

帮我生成一份幻灯片,分成四大部分,分别对应 4 个 pdf 文件,每个部分均包含
1. 每本书的定位和核心内容。
2. 适合哪类题材的创作者?
3. 为什么书里提到的方法可以用AI来帮助实现和落地,以及如何用AI来帮助实现和落地?(这部分最重要)

依旧只读了同一本书。第三次用默认无 Prompt 模式,结果不变。三次全部翻车。

根因分析:Gemini 给出的诊断

问题出在哪?把这个现象抛给 Gemini,得到了一个清晰的解释:

NotebookLM 虽然上下文窗口足够大,但面对模糊指令时,它倾向于"偷懒"——只抓取权重最高或排列靠前的文件进行处理,直接忽略其余来源。这不是能力问题,是行为模式问题。

更深一层的原因在于:这些书大多是经典写作方法论,内容里根本没有提到 ChatGPT 或任何当代 AI 工具。当 Prompt 问的是"书里怎么说用 AI",模型的合理回答就是"书里没提"。要让它完成这个任务,必须要求它做推理桥接——基于书中的原理去推演 AI 的应用方式,而不是从书中直接检索。

解法:三个关键改造

根据 Gemini 的建议,最终版 Prompt 做了三处核心调整:

分治策略:不再说"总结所有文件",而是用 ### 第一部分### 第二部分 这样的标题强制规定结构。相当于给了四道必答题,而不是一道开放题。这直接解决了模型只读一个文件的问题。

强制 AI 桥接:把指令从"书里怎么说用 AI"改成"基于书中的原理,分析为何适合 AI 以及如何落地"。这要求 NotebookLM 运用推理能力,把旧理论(比如《华尔街日报》的叙事结构)与新工具(LLM 的重写能力)结合起来,而不是做简单的文本检索。

角色设定:设定模型为"AIGC 应用落地专家",让它在回答如何用 AI 实现时,倾向于给出具体的 Prompt 示例或工作流,而不是泛泛而谈。

改造后的 Prompt 一次通过,四本书全部覆盖,输出质量远超之前的所有尝试。

这件事的通用启示

这个案例揭示了一个在 LLM 应用中被严重低估的问题:**当源材料本身不包含你想要的答案时,你的 Prompt 必须明确告诉模型去做推理,而不是检索。**检索型指令和推理型指令,激活的是模型完全不同的行为路径。

另一个值得注意的点是"用 LLM 生成 Prompt"这个工作流。当你在一个 AI 工具上遇到瓶颈,用另一个 AI 工具来诊断问题、生成更精确的指令,这本身就是一种高效的 Agent 协作模式——不需要复杂的编排框架,只需要把工具链上的诊断环节交给更擅长推理的模型。

模糊指令和精确指令之间的效果差距,不是 10% 和 20% 的区别,而是能用和不能用的区别。这个认知,比选择哪个工具更重要。