背景:初代版本够用,但不够强

之前开源过一个 Claude Code Skill,功能是根据视频语义自动切割章节。当时处理的是 6 分钟的短视频,几个 demo 案例需要单独剪出来,手动拖时间轴太痛苦,就造了个语义切割工具。

处理 10 分钟以内的视频绰绰有余。但当任务变成 1.5 小时、1.5G 的直播回放时,问题暴露了。

踩坑:没有 GPU,Whisper 直接解析视频是灾难

调用 Skill,开始执行,结果一算——要跑十几个小时。

原因很简单:视频太长,在没有 GPU 的情况下,让 Whisper 直接处理视频文件,光是解析就要接近 10 小时。这时间成本比手动剪还慢。

破局:一个步骤调整,速度直接起飞

这里有个坑:不该让 Whisper 直接吃视频文件。

把问题发到群里,有人一眼看出了症结。优化方案其实很简单:

  • 原方案:视频 → Whisper 直接处理(又慢又吃资源)
  • 新方案:视频 → FFmpeg 分离音频 → Whisper 识别音频

就这么一步调整,速度天差地别。FFmpeg 分离音频几乎是瞬间完成的事,Whisper 处理纯音频的效率远高于处理视频容器。

成本:0.74 元人民币

1.5 小时的视频,语义分析加切割,总计花了 0.74 元。这里用的是订阅制中转站的月卡,1 美元对应 1 人民币。

效果对比

环节 初代版本(短视频) 升级版本(长视频)
适用时长 10 分钟以内 1.5 小时+
字幕提取 Whisper 直接处理视频 FFmpeg 分离音频 + Whisper
处理速度 几分钟 约 10 分钟(无 GPU)
成本 几乎为零 0.74 元

Skill 是会长大的

第一版解决了"能不能做"的问题,第二版解决了"能不能用在真实场景"的问题。触发升级的契机,就是一个真实需求撞上了现有能力的边界。

这就是 vibe coding 的正循环:用 → 发现问题 → 改 → 变得更强 → 继续用。每一次使用都是一次迭代。

意外收获:需求比想象中旺盛

把升级后的效果截图发到朋友圈和小红书后,引来了不少关注。一位之前做视频剪辑软件的开发者直接把他的 300 人产品内测群转交过来,让推广这个工具。

小红书帖子才 88 的浏览量就被看到了。再次印证一件事:持续向世界发出声音,总会被听到。从个人需求出发做的小工具,一旦放出去,才知道市场在哪里。

这个 Skill 的核心思路——FFmpeg 预处理音频、Whisper 转写、LLM 语义分析切割——架构不复杂,但解决的是一个真实的高频痛点。如果你也在用 Claude Code,不妨把自己的高频操作封装成 Skill,用着用着它就会长大。