这个 Skills 能做什么
更新后的 PPT 生成 Skills 在启动时会询问你是否需要视频转场。如果选择生成,它会帮你导出两样东西:
- 演示网页:一个精心设计的网页播放器,空格键播放,左右键翻页。切换页面时播放转场视频,停下来后自动替换为静态图片方便讲解。首页还做了无限循环的动态视频设计——在等人或者提前准备时,封面一直是动态的,这个细节确实挺聪明。
- 完整演示视频:一个可以直接分享的视频文件,方便发到群里或社交媒体。
加上动效之后的 PPT 观感直接提升了一个档次。想象一下你在给客户做汇报时掏出这么一手,然后告诉他们这全是 AI 做的。
安装前的准备
这是一个 Claude Code / OpenCode 这类 CLI 工具的 Skills,安装前需要准备两个 API:
Google API(用于 Nano Banana Pro 模型生成图片):
- 在 AI Studio 获取 API Key
- 注意:需要开启付费,免费版无法调用 Nano Banana Pro 模型
可灵 API(用于生成转场动画视频):
- 使用国内版本,建议先买 69 元体验包
- 并发数只有 3,代码里已经做了相应处理
- 创建时会生成两个 Key,两个都需要
安装和使用
如果你已经装了 Claude Code 或 OpenCode,直接把安装提示词发给它就行,记得把提示词中的三个 API Key 替换成你自己的。
几个小技巧:
- 安装时建议开启 Plan 模式(按两次 Shift+Tab),出问题的几率会小一些
- 安装过程中出了问题直接让它自己修复就好
- 项目已经开源在 GitHub,Readme 写得非常详细——说实话这个 Readme 是 Claude Code 帮写的,清晰程度比自己写强多了
使用时,把你想生成 PPT 的文档放到一个文件夹,在这个文件夹启动 Claude Code,然后直接说「调用 Skills 将当前文件夹下的 XXX 文档生成 PPT」。
Skills 启动后会让你依次选择:生成几页、是否带动效视频、图片分辨率等。选完之后一路回车等待就行,全程不需要交互。
背后的架构设计
加上视频生成之后,整个系统的架构变得相当复杂。核心流程大致如下:
- 查找用户输入的文档,进行内容分析和规划
- 调用 PPT 生成模块和风格加载器
- 基于风格加载器生成图片所需的提示词
- 调用 Nano Banana Pro API 生成图片,同时监控生成过程
- 图片生成完成后,为每个转场生成首尾帧提示词
- 调用可灵 API,用 Kling-2.6 视频模型的 Pro 模式生成转场视频
- 将视频和图片路径写入演示网页代码,生成可交互的演示页面
- 调用本地 ffmpeg 将图片和视频剪辑成完整的演示视频
- 输出完整视频并打开演示网页
这里有个值得关注的设计:在首尾帧提示词生成环节,开发者设计了一个「元提示词」——Claude Code 会根据这个元提示词和已生成的图片来动态生成具体的提示词。这种让 AI 根据模板自主生成提示词的模式,在复杂 Agent 构建中会越来越有价值。
ffmpeg 视频合成这部分看起来只是拼接图片和视频,但实际涉及的细节不少:图片展示时长控制、图片与视频分辨率对齐、最终的拼接和压缩,都需要处理。
成本和感受
整个 Skills 基本全是用 Sonnet 4.5 模型生成的,几乎没有调用 Opus 模型,API 费用大约 20 美元。花 20 美元得到一个通用的 PPT 生成 Agent,这个性价比确实可以。
构建这个相对复杂的 Skills 过程中能学到很多东西:让 Claude Code 画流程图来解释 Agent 逻辑、API Key 的存储方式、生成漂亮的 Readme 降低使用门槛,甚至学会了如何在 GitHub 上添加演示视频。
说实话,自己动手构建一个 Agent 是理解 Agent 开发难点和逻辑的最好方式。不需要多复杂,从一个解决你自己实际需求的 Skills 开始,你会对市面上的各种 Agent 产品建立起真正的判断力。AI Coding 的能力边界正在快速扩展,现在是上手实践的好时机。