三条技术路线,三种取舍
路线一:用图像生成模型直接出图。 代表技术是Nano Banana Pro/Nano Banana 2。原理是让模型直接生成PPT页面的图片,优点是视觉上限极高——复杂图形、高信息密度、大厂风格的PPT都能生成;缺点也明显:偶尔写错汉字,生成的是图片而非可编辑文件。不过这个缺点正在被解决,下一代模型预计会支持直接修改图片内容。
基于这条路线的产品已经形成了一个小生态:
- NotebookLM:Google官方产品,Gemini Pro用户基本免费用。风格统一是它的强项,但只能生成极简风格,图片分辨率仅2K,汉字错误率偏高,还带水印。
- 第三方Banana API产品(如Youmind等):分辨率可达4K,汉字准确度更高,但成本也高——Banana官方API价格不低,一张4K图至少1元人民币。
- 开源方案Banana Slides:包含了从生成到OCR+inPaint转可编辑格式的完整流程,但转换效果还不够完美。项目已开源在GitHub上。
- Codia NotesSlide:付费产品,专门把图片PPT转成可编辑文件,目前效果最好,提供10次免费体验。
路线二:Agent直接编辑PPT文件。 原理是通过Python操作PPT文件,效果完全取决于Agent和底层模型的能力。这条路线有一个非常实用的技巧:不要让Agent从头创建,而是提供一个包含多种复杂布局的PPT模板文件,让Agent按模板替换内容。
这可能是目前性价比最高的方案。Claude Code、Claude Cowork、Codex、AntiGravity、甚至OpenClaw都能完成,而且输出的是原生PPT文件,后续可以直接编辑。模型选择上有明显差异:Claude Opus 4.6表现不错,GPT-5.4尚可,Gemini 3.1 Pro效果就差一些。实测下来Claude Cowork最省心,可以安装专门的PPT编辑Skill来使用。
具体操作流程很简单:把要做成PPT的内容放在一个本地文件里(比如Word文档),文件夹里再放一个PPT模板文件,然后给Agent一条指令:
打开Word文档,根据里面的内容修改PPT模板文件。PPT内已有的Slide是供你选用的模板,挑选合适的模板给不同内容使用,注意不要重复使用相同的模板。最终生成的PPT页数直接添加在文件后面。
路线三:生成SVG网页再转PPT。 用LLM写网页代码,结合SVG画图和动画来实现演示效果。优点是可以生成流畅的网页动画,视觉冲击力强;缺点是风格偏简洁,无法生成高信息密度的华丽PPT,而且导出为PPT文件时会丢失动画、图形错位。如果只需要在线演示而不要求PPT格式,这个方案值得考虑。
商业产品方面有Gemma和Dokie,效果都不错。开源方案也有两个:一个是frontend-slides(生成HTML网页形式的演示),Claude Code、Codex、OpenClaw都可以用;另一个是蚂蚁开源的infoGraph,主要用于生成信息图,也可以用在PPT场景。
生成豪华风格PPT的提示词方法论
技术方案只是基础,真正拉开差距的是提示词工程。这里有一个可复用的思路:用真实的优秀PPT模板训练你的提示词。
具体操作分三步:
- 从网上PPT模板网站下载顶级的、信息密度高的PPT模板(不是极简风格,而是大厂汇报级别的)
- 让Gemini分析这些模板的视觉特征,生成能复现类似效果的提示词描述
- 把PPT模板作为图片参考(可以同时使用多张,实测用8张效果不错),配合Gemini优化后的提示词和实际内容,组合成最终的生成指令
这个方法的底层逻辑是通用的:你要生成好的内容,首先要能定义"好"的标准。标准可以来自你自己的经验积累、来自网上其他人的经验、或来自AI的创造——但不能什么参考都没有就期望模型凭空产出优质结果。
成本与选择
三条路线的成本差异值得关注。图像生成路线如果用官方API,10页PPT的成本在10元左右;用中转站API可以压到4.9元/10页,但稳定性会受Google限额影响。Agent编辑路线的成本主要是模型调用费用,如果用Claude Cowork这类订阅制产品,边际成本几乎为零。SVG网页路线成本最低,但格式转换的损耗是隐性成本。
对一人公司来说,路线二(Agent编辑PPT模板)可能是当前最务实的选择——成本可控、输出可编辑、质量依赖模板而非模型的随机发挥。但从趋势看,路线一的图像生成方案一旦解决了可编辑性问题,大概率会成为终局方案。现在值得做的事是:准备好你自己的高质量PPT模板库,这个资产在任何一条路线下都能复用。