用 Claude Code 十分钟切完一场直播回放，成本不到一块钱

背景：初代版本够用，但不够强

之前开源过一个 Claude Code Skill，功能是根据视频语义自动切割章节。当时处理的是 6 分钟的短视频，几个 demo 案例需要单独剪出来，手动拖时间轴太痛苦，就造了个语义切割工具。

处理 10 分钟以内的视频绰绰有余。但当任务变成 1.5 小时、1.5G 的直播回放时，问题暴露了。

调用 Skill，开始执行，结果一算——要跑十几个小时。

原因很简单：视频太长，在没有 GPU 的情况下，让 Whisper 直接处理视频文件，光是解析就要接近 10 小时。这时间成本比手动剪还慢。

这里有个坑：不该让 Whisper 直接吃视频文件。

把问题发到群里，有人一眼看出了症结。优化方案其实很简单：

就这么一步调整，速度天差地别。FFmpeg 分离音频几乎是瞬间完成的事，Whisper 处理纯音频的效率远高于处理视频容器。

1.5 小时的视频，语义分析加切割，总计花了 0.74 元。这里用的是订阅制中转站的月卡，1 美元对应 1 人民币。

第一版解决了"能不能做"的问题，第二版解决了"能不能用在真实场景"的问题。触发升级的契机，就是一个真实需求撞上了现有能力的边界。

这就是 vibe coding 的正循环：用 → 发现问题 → 改 → 变得更强 → 继续用。每一次使用都是一次迭代。

把升级后的效果截图发到朋友圈和小红书后，引来了不少关注。一位之前做视频剪辑软件的开发者直接把他的 300 人产品内测群转交过来，让推广这个工具。

小红书帖子才 88 的浏览量就被看到了。再次印证一件事：持续向世界发出声音，总会被听到。从个人需求出发做的小工具，一旦放出去，才知道市场在哪里。

这个 Skill 的核心思路——FFmpeg 预处理音频、Whisper 转写、LLM 语义分析切割——架构不复杂，但解决的是一个真实的高频痛点。如果你也在用 Claude Code，不妨把自己的高频操作封装成 Skill，用着用着它就会长大。