产品定位与核心功能
漫导APP的核心流程:用户输入一句灵感描述,系统自动生成剧本、角色、场景,随后逐步生成分镜图片、分镜视频,最终合成完整的漫剧视频。
作者的出发点很实际——市面上大多数AI漫剧工具只能在PC端的Web页面操作,缺少一款支持手机端随时创作的APP。于是决定自己动手。
技术架构选型
核心技术栈:
- 开发工具:Claude Code(CLI编程助手)
- 前端框架:Flutter(Dart),Claude对Flutter代码生成准确度高,开发安卓应用速度快
- 核心大脑:GLM 4.7(通过API调用),负责理解用户意图、拆解步骤、输出JSON格式指令
- 多模态接口:Gemini绘图 + Veo视频生成接口
架构设计采用ReAct模式(Reasoning + Acting),核心思路是不把逻辑写死,而是让GLM 4.7充当规划层:
- 用户输入:例如"帮我做一个熊猫吃竹子的视频,要可爱的风格"
- GLM 4.7(规划层):分析意图,输出工具调用指令——先生成文案,再生成图片,最后生成视频
- APP(执行层):解析指令,调用对应API
- APP(反馈层):将结果回传给GLM 4.7
- GLM 4.7(规划层):根据反馈决定下一步操作
这种架构让大模型真正扮演"导演"角色,而非简单的接口调用。
人物一致性解决方案
AI漫剧最大的难点是人物一致性。漫导的做法是:
- 先为主角生成三视图,作为整个剧本中角色形象的锚点
- 每个场景的分镜图生成时,都会参考主角三视图和对应提示词
- 默认配置7个场景、2个角色,均支持自定义调整
开发过程
整个开发流程可以概括为:
- 编写核心提示词:明确告知Claude Code要做什么,附上API接口文档
- 规划架构:向Claude Code描述技术栈和ReAct架构,防止生成方向跑偏
- 从零到雏形:约10分钟,APP雏形诞生,包含完整的聊天界面、相机图片上传、对话记录等功能
- 迭代调试:遇到问题后反复让Claude Code配合GLM 4.7调整,逐步完善
作者本身并不懂APP开发,全程依赖AI编程助手完成。最终产出的MVP版本,UI简约美观,功能链路完整——从剧本生成到角色设计、场景规划、分镜绘制、视频合成,形成了完整闭环。
成本与效率
- 开发周期:8天(含元旦假期3天,实际编码不到5天)
- API费用:20元人民币(包含开发阶段和APP使用阶段的token消耗)
- 对比传统开发:同样的MVP版本,传统方式至少需要一两周
项目已开源
该项目已在GitHub开源(仓库名:freestylefly/director_ai),开发者可以配置自己的API密钥体验,也欢迎提交PR参与共建。
延伸思考
这个案例展示了当前AI Coding的真实能力边界:一个不懂移动端开发的程序员,凭借Claude Code + GLM 4.7的组合,可以在极短时间内交付一个功能完整的APP。对于独立开发者而言,这意味着产品验证的成本已经降到了前所未有的低点——5天时间、20块钱,就能把一个想法变成可运行的原型。关键不再是"能不能做",而是"值不值得做"。