在一个单GPU上构建了开源的一提示生成电影级短片流程——使用FLUX.2 [klein]生成角色关键帧,Wan2.2-I2V生成动画,视觉评论器带自动重试,同一流程中集成音乐+9种语言旁白
摘要
构建了一个开源流程,仅需输入一句话即可生成带有角色、动画、音乐和旁白的电影级短片,使用FLUX.2、Wan2.2及其他模型,在单个AMD GPU上运行。该流程包含导演代理、角色生成、关键帧动画、视觉评论器、音乐和旁白等阶段。
为AMD x lablab黑客马拉松提交了此项目。附带的视频是该流程生成的真实短片之一——输入一句英文,输出完整的mp4,包含角色、故事、音乐和旁白(快速演示视频,质量不是最佳)。在单个AMD Instinct MI300X上端到端耗时约45分钟。所有模型均为Apache 2.0或MIT许可证。**流程(8个阶段,在同一GPU上顺序执行):**
1. **导演代理** - Qwen3.5-35B-A3B (vLLM + AITER MoE) 根据一句话规划6个镜头,返回结构化的JSON,包含角色设定、镜头提示、音乐概要、每个镜头的旁白脚本、旁白语言
2. **角色主画面** - FLUX.2 [klein] 为每个角色绘制一幅标准画像。**无需LoRA训练步骤** - 通过结构设计,参考编辑可在各镜头间锁定身份
3. **每个镜头的关键帧** - 再次使用FLUX.2配合参考图像。预热后每个关键帧耗时低于一秒
4. **动画** - Wan2.2-I2V-A14B,原生81帧@16fps。使用FLF2V实现无缝续接弧(镜头N的最后一帧锚定镜头N+1的第一帧)
5. **视觉评论器** - 同一Qwen3.5-35B重新加载,带有10个结构化失败标签(角色漂移、路人侵入画面、忽略镜头、倒着走、物体变形、手/手指伪影、服装漂移、霓虹光泄漏、AI风格化外观、随机亲密行为)。不良片段使用针对性的重试策略重新渲染(不同种子、FLF2V锚定、提示简化)
6. **音乐** - ACE-Step v1根据导演概要生成30秒纯音乐
7. **旁白** - Kokoro-82M,支持9种语言。导演根据场景选择语言(东京→日语,巴黎→法语,孟买→印地语)
8. **混合** - 使用ffmpeg,通过adelay对齐每个镜头的旁白
**Wan 2.2 具体细节(本子版块关心的地方):**
- 1280×720,**不是**默认的640×640。成本更高,但符合制作者的需求
- 我首次尝试了24fps下的121帧,出现了时间涟漪。改为原生16fps下的81帧(Wan训练时的分布),问题得到解决
- 主角镜头使用flow_shift=5,B-roll使用8(上游wan_i2v_A14B.py默认值)
- 负提示:来自shared_config.py的**逐字中文训练负提示**。umT5正是针对这些确切令牌进行了多语言预训练。英文翻译效果明显较弱
- 镜头语言:每个镜头只用一个镜头动词,句子格式,放在首位("从后方跟随的跟踪镜头")。一个提示中的多个动词会互相抵消
- 避免使用“cinematic”一词——会触发Wan的风格化分支,产生AI感。改用镜头/胶片标签("Arri Alexa,变形镜头,35mm胶片颗粒")
**性能优化:**
- ParaAttention FBCache(在Wan2.2上无损2倍加速)
- 在transformer_2上使用torch.compile(选择性,双专家MoE导致全面编译不稳定)
- 额外1.2倍加速
- 在Qwen导演上使用AITER MoE加速(vLLM)
- 端到端:在MI300X上处理每个720p片段从25.9分钟降至10.4分钟
**为什么选择单个MI300X:** 192 GB HBM3允许35B MoE、4B扩散模型、14B I2V MoE、3.5B音乐模型和一个TTS顺序共享同一张卡。同样的堆栈在24 GB消费级GPU上需要4-5台设备连接在一起。
**代码(公开,Apache 2.0):** https://github.com/bladedevoff/studiomi300
**Hugging Face(文档,像这个空间🙏)** https://huggingface.co/spaces/lablab-ai-amd-developer-hackathon/studiomi300
HF Space上的实时演示暂时离线,基础设施正在恢复——应在几小时内恢复。同时,仓库中的展示短片是真实的流程输出,未经人为重新剪辑。欢迎在评论中深入探讨AITER MoE设置、FBCache调优、FLF2V锚定或视觉评论器的失败分类法。
相似文章
仅用一条文本提示生成了电影质感的未来汽车预告片
作者展示了一个自动化的 AI 工作流,利用 Seedance 2.0 仅通过单条文本提示即可生成电影级汽车预告片。文章突出了在流程编排方面的进步,同时也指出了在画面一致性和物理真实性方面尚存的问题。
我构建了一个工具,用于在8GB GPU上自动交换VRAM,将小型Prompter和大型Coder串联成一个流水线,避免手动切换模型
作者构建了Prompt-Chain,这是一个Streamlit应用,它将一个小型prompter模型和一个大型coder模型串联起来,并自动交换VRAM,从而在8GB GPU上实现高效的代码生成。
@DeRonin_:仅用一个提示词,使用Higgsfield Supercomputer制作了这段视频。5分钟电影级广告。以下是框架,以便你…
一份使用 Higgsfield Supercomputer 制作电影级 AI 视频的框架指南,强调以电影导演思维进行提示、使用图像到视频技术、风格参考、长时间镜头、负面提示和外部音效设计。
实验用故事板规划的AI电影化场景,而非单提示生成
探讨了一种故事板规划的AI电影化场景方法,先构建序列结构再逐镜头生成,相比于单提示生成,能产生更连贯的视频,同时指出了当前弱点如身份漂移和交互物理。
EvalVerse:面向专业电影级视频生成的流水线感知与专家校准基准测试
EvalVerse是一个面向专业电影级视频生成的全面评估框架,它利用专家校准的视觉语言模型和多阶段评估,弥合人类审美判断与机器评分之间的鸿沟。