不用剪辑软件，只靠代码做出 40 秒产品视频：先出图再写码的 AI 工作流

这套工作流做出来的，是四个动画场景：Discord 群聊洪流、数据看板、分屏对比、产品出场。每个场景都有入场动效和标注卡片。听起来很复杂，但拆开看，逻辑非常朴素。

为什么非要先出图？

直接让 Codex 写界面，没有图，会怎么样？

就像让一个人画画，但不告诉他画什么——他能动笔，但结果全靠运气。

做视频也一样。你跟 AI 说「深色调、有科技感、简洁大气」，它能理解这些词，但落到实际画面，十次有七次不是你想要的。

那怎么办？先生成一张预览图，AI 就有了可视化的参考，比文字更直观。任务从「帮我做一个有科技感的场景」，变成「按照这张图的布局、颜色、层级，复刻成动画」。

视觉目标从模糊变成可执行。这一步，是整个工作流能跑通的原因。

每个场景，先在文档里把四件事确认清楚：

不需要任何工具，纯写文档。几个场景，就写几份分镜描述。这是之后所有东西的地基——地基不稳，后面用什么模型都救不回来。

每个场景写一份图片 Prompt。每张图只问一件事：这个视觉方向对不对？ 对了，才进下一步。

不同类型的场景，Prompt 格式不一样：

这里有一条原则要记住：纹理和插图用生图解决，文字、数字、布局、动效全在代码里重建。两件事不要混。

为什么？因为 AI 生图对文字处理很不可靠，但代码渲染文字精确到像素。让擅长的工具做擅长的事。

给图之前，先把场景拆成两层：

这层分工要写进 Codex 的 prompt 里：「文字和布局用代码实现，背景图我会手动 import，你不需要生成图片内容。」

还有一句很关键的提示词——「先分析，再写代码」。跳过它，Codex 会直接开写，容易写歪。先让它对着图片说出它看到了什么、打算怎么实现，再让它动手。

每个场景单独跑，对照原图。有偏差时，反馈要具体：

越具体，Codex 越好改。这一步本质上是在训练自己说「人话+工程话」——把视觉感受翻译成可执行的指令。

四个场景全跑通之后，浏览器直接预览，系统自带录屏就够了。

不需要 After Effects，不需要 Premiere，不需要任何视频软件。

要让视频更好看，最后过一遍美化工具、配个 BGM，就完成了。

想做产品演示视频、工具教程视频，但没有视频制作背景的人。

你不需要懂剪辑，不需要懂动效工程。你需要的是：知道每个场景要长什么样，然后用一张图把这件事说清楚。

先确认视觉，再执行工程。把两个判断拆开，AI 就不会乱。

回过头看，这套工作流真正的价值不是「省了一万块」，而是把一件原本需要专业团队协作的事，拆成了一个人就能跑完的流程。每一步都明确：这一步在判断什么？下一步靠什么输入？

下次你想做一个视频、一个 landing page、甚至一个完整的产品 demo，不妨问自己：哪些部分该交给「先出图」，哪些部分该交给「直接写代码」？把这条边界画清楚，AI 工具的产出质量会立刻上一个台阶。