在一个单GPU上构建了开源的一提示生成电影级短片流程——使用FLUX.2 [klein]生成角色关键帧，Wan2.2-I2V生成动画，视觉评论器带自动重试，同一流程中集成音乐+9种语言旁白

Reddit r/LocalLLaMA 2026/05/14 09:16 工具

open-source video-generation pipeline single-gpu flux wan2.2 amd-instinct

摘要

构建了一个开源流程，仅需输入一句话即可生成带有角色、动画、音乐和旁白的电影级短片，使用FLUX.2、Wan2.2及其他模型，在单个AMD GPU上运行。该流程包含导演代理、角色生成、关键帧动画、视觉评论器、音乐和旁白等阶段。

为AMD x lablab黑客马拉松提交了此项目。附带的视频是该流程生成的真实短片之一——输入一句英文，输出完整的mp4，包含角色、故事、音乐和旁白（快速演示视频，质量不是最佳）。在单个AMD Instinct MI300X上端到端耗时约45分钟。所有模型均为Apache 2.0或MIT许可证。**流程（8个阶段，在同一GPU上顺序执行）：** 1. **导演代理** - Qwen3.5-35B-A3B (vLLM + AITER MoE) 根据一句话规划6个镜头，返回结构化的JSON，包含角色设定、镜头提示、音乐概要、每个镜头的旁白脚本、旁白语言 2. **角色主画面** - FLUX.2 [klein] 为每个角色绘制一幅标准画像。**无需LoRA训练步骤** - 通过结构设计，参考编辑可在各镜头间锁定身份 3. **每个镜头的关键帧** - 再次使用FLUX.2配合参考图像。预热后每个关键帧耗时低于一秒 4. **动画** - Wan2.2-I2V-A14B，原生81帧@16fps。使用FLF2V实现无缝续接弧（镜头N的最后一帧锚定镜头N+1的第一帧） 5. **视觉评论器** - 同一Qwen3.5-35B重新加载，带有10个结构化失败标签（角色漂移、路人侵入画面、忽略镜头、倒着走、物体变形、手/手指伪影、服装漂移、霓虹光泄漏、AI风格化外观、随机亲密行为）。不良片段使用针对性的重试策略重新渲染（不同种子、FLF2V锚定、提示简化） 6. **音乐** - ACE-Step v1根据导演概要生成30秒纯音乐 7. **旁白** - Kokoro-82M，支持9种语言。导演根据场景选择语言（东京→日语，巴黎→法语，孟买→印地语） 8. **混合** - 使用ffmpeg，通过adelay对齐每个镜头的旁白 **Wan 2.2 具体细节（本子版块关心的地方）：** - 1280×720，**不是**默认的640×640。成本更高，但符合制作者的需求 - 我首次尝试了24fps下的121帧，出现了时间涟漪。改为原生16fps下的81帧（Wan训练时的分布），问题得到解决 - 主角镜头使用flow_shift=5，B-roll使用8（上游wan_i2v_A14B.py默认值） - 负提示：来自shared_config.py的**逐字中文训练负提示**。umT5正是针对这些确切令牌进行了多语言预训练。英文翻译效果明显较弱 - 镜头语言：每个镜头只用一个镜头动词，句子格式，放在首位（"从后方跟随的跟踪镜头"）。一个提示中的多个动词会互相抵消 - 避免使用“cinematic”一词——会触发Wan的风格化分支，产生AI感。改用镜头/胶片标签（"Arri Alexa，变形镜头，35mm胶片颗粒"） **性能优化：** - ParaAttention FBCache（在Wan2.2上无损2倍加速） - 在transformer_2上使用torch.compile（选择性，双专家MoE导致全面编译不稳定） - 额外1.2倍加速 - 在Qwen导演上使用AITER MoE加速（vLLM） - 端到端：在MI300X上处理每个720p片段从25.9分钟降至10.4分钟 **为什么选择单个MI300X：** 192 GB HBM3允许35B MoE、4B扩散模型、14B I2V MoE、3.5B音乐模型和一个TTS顺序共享同一张卡。同样的堆栈在24 GB消费级GPU上需要4-5台设备连接在一起。 **代码（公开，Apache 2.0）：** https://github.com/bladedevoff/studiomi300 **Hugging Face（文档，像这个空间🙏）** https://huggingface.co/spaces/lablab-ai-amd-developer-hackathon/studiomi300 HF Space上的实时演示暂时离线，基础设施正在恢复——应在几小时内恢复。同时，仓库中的展示短片是真实的流程输出，未经人为重新剪辑。欢迎在评论中深入探讨AITER MoE设置、FBCache调优、FLF2V锚定或视觉评论器的失败分类法。

查看原文

在一个单GPU上构建了开源的一提示生成电影级短片流程——使用FLUX.2 [klein]生成角色关键帧，Wan2.2-I2V生成动画，视觉评论器带自动重试，同一流程中集成音乐+9种语言旁白

相似文章

仅用一条文本提示生成了电影质感的未来汽车预告片

我构建了一个工具，用于在8GB GPU上自动交换VRAM，将小型Prompter和大型Coder串联成一个流水线，避免手动切换模型

@DeRonin_：仅用一个提示词，使用Higgsfield Supercomputer制作了这段视频。5分钟电影级广告。以下是框架，以便你…

实验用故事板规划的AI电影化场景，而非单提示生成

EvalVerse：面向专业电影级视频生成的流水线感知与专家校准基准测试

提交意见反馈