背景:初代版本够用,但不够强
之前开源过一个 Claude Code Skill,功能是根据视频语义自动切割章节。当时处理的是 6 分钟的短视频,几个 demo 案例需要单独剪出来,手动拖时间轴太痛苦,就造了个语义切割工具。
处理 10 分钟以内的视频绰绰有余。但当任务变成 1.5 小时、1.5G 的直播回放时,问题暴露了。
踩坑:没有 GPU,Whisper 直接解析视频是灾难
调用 Skill,开始执行,结果一算——要跑十几个小时。
原因很简单:视频太长,在没有 GPU 的情况下,让 Whisper 直接处理视频文件,光是解析就要接近 10 小时。这时间成本比手动剪还慢。
破局:一个步骤调整,速度直接起飞
这里有个坑:不该让 Whisper 直接吃视频文件。
把问题发到群里,有人一眼看出了症结。优化方案其实很简单:
- 原方案:视频 → Whisper 直接处理(又慢又吃资源)
- 新方案:视频 → FFmpeg 分离音频 → Whisper 识别音频
就这么一步调整,速度天差地别。FFmpeg 分离音频几乎是瞬间完成的事,Whisper 处理纯音频的效率远高于处理视频容器。
成本:0.74 元人民币
1.5 小时的视频,语义分析加切割,总计花了 0.74 元。这里用的是订阅制中转站的月卡,1 美元对应 1 人民币。
效果对比
| 环节 | 初代版本(短视频) | 升级版本(长视频) |
|---|---|---|
| 适用时长 | 10 分钟以内 | 1.5 小时+ |
| 字幕提取 | Whisper 直接处理视频 | FFmpeg 分离音频 + Whisper |
| 处理速度 | 几分钟 | 约 10 分钟(无 GPU) |
| 成本 | 几乎为零 | 0.74 元 |
Skill 是会长大的
第一版解决了"能不能做"的问题,第二版解决了"能不能用在真实场景"的问题。触发升级的契机,就是一个真实需求撞上了现有能力的边界。
这就是 vibe coding 的正循环:用 → 发现问题 → 改 → 变得更强 → 继续用。每一次使用都是一次迭代。
意外收获:需求比想象中旺盛
把升级后的效果截图发到朋友圈和小红书后,引来了不少关注。一位之前做视频剪辑软件的开发者直接把他的 300 人产品内测群转交过来,让推广这个工具。
小红书帖子才 88 的浏览量就被看到了。再次印证一件事:持续向世界发出声音,总会被听到。从个人需求出发做的小工具,一旦放出去,才知道市场在哪里。
这个 Skill 的核心思路——FFmpeg 预处理音频、Whisper 转写、LLM 语义分析切割——架构不复杂,但解决的是一个真实的高频痛点。如果你也在用 Claude Code,不妨把自己的高频操作封装成 Skill,用着用着它就会长大。