jdopensource/JoyAI-Echo
摘要
京东开源发布了JoyAI-Echo(Echo-LongVideo),这是一个文本到音视频扩散模型,能够生成分钟级的多镜头视频,保持角色身份和声音一致,并利用DMD蒸馏实现了7.5倍的速度提升。
查看缓存全文
缓存时间: 2026/06/08 15:15
jdopensource/JoyAI-Echo · Hugging Face 来源:https://huggingface.co/jdopensource/JoyAI-Echo Echo-LongVideo 生成的视频集锦 ## Echo-LongVideo 🎬 推动长视频生成的边界 面向分钟级、多镜头、音视频生成的官方模型权重,采用蒸馏后的 DMD 生成器、成对跨模态记忆以及故事级一致性。 📄 论文 (https://huggingface.co/jdopensource/LongVideo_Tech_Report.pdf) | 💻 推理代码 (https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo) | 🧬 模型 (https://huggingface.co/jdopensource/JoyAI-Echo#model-details) | 🚀 使用方法 (https://huggingface.co/jdopensource/JoyAI-Echo#usage) | 📊 效果 (https://huggingface.co/jdopensource/JoyAI-Echo#results) | 📝 引用 (https://huggingface.co/jdopensource/JoyAI-Echo#citation) 文生视频 音频+视频 5分钟长视频 模型权重 ## 模型概要 Echo-LongVideo(亦称 JoyAI-Echo)是一个长格式、多镜头、音视频生成模型。一个跨模态的视听记忆库能够一致地保留角色外观和音色,最长支持五分钟的视频;结合基于记忆的强化学习与分布匹配蒸馏(DMD)的后训练流程,在保证质量的前提下实现了7.5 倍的推理加速。人工评测中,Echo-LongVideo 在长视频生成方面显著优于 HappyOyster(导演模式),并在以人物为中心的任务上超越了短视频专项模型 Wan 2.6。本仓库存放已发布的检查点。推理代码另行发布——请参见“使用方法”部分。 ## 模型详情 - 开发团队: Echo Team @ Joy Future Academy,京东 - 模型类型: 文本转(音频+视频)扩散 Transformer,DMD 8 步 - 模态: 文本 → 同步的视频+音频 - 骨干网络: 基于 LTX-Video (https://github.com/Lightricks/LTX-Video) 构建 - 文本编码器: google/gemma-3-12b-it (https://huggingface.co/google/gemma-3-12b-it)(需单独下载) - 分辨率/时长(默认): 1280 × 736,每镜头 241 帧 @ 25 fps - 最大故事长度: 最长 5 分钟(多镜头) - 许可证: LTX-2 社区许可协议 ## 亮点 - 🎞️ 通过单个人物提示 JSON 生成分钟级多镜头故事。 - ⚡ DMD 蒸馏后的少步推理,比原始流水线快约 7.5 倍。 - 🔊 在单一流水线中联合生成音频与视频。 - 🧠 成对跨模态记忆库,保证故事级身份与语音一致性。 ## 使用方法 推理通过独立的 Echo-LongVideo 推理仓库运行。 ### 1. 下载检查点 huggingface-cli download /Echo-LongVideo \ --local-dir checkpoints 同时下载 Gemma 文本编码器: huggingface-cli download google/gemma-3-12b-it \ --local-dir checkpoints/gemma-3-12b 期望的文件结构: checkpoints/ ├── echo-longvideo-release.safetensors └── gemma-3-12b/ ### 2. 获取推理代码 git clone https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo.git cd JoyAI-Echo 环境要求:Python 3.11 + PyTorch 2.8 + CUDA 12.8(参见推理仓库中的 environment.yml / requirements.txt)。 ### 3. 编写故事提示 首先完善你的提示。 我们提供了提示增强器——系统提示,可将简短故事或创意扩展为格式良好的镜头提示: - prompts/long_story_writer_system_prompt.md:用于长多镜头视频 - prompts/short_story_writer_system_prompt.md:用于单镜头短视频 我们强烈建议在推理之前将输入通过相应的增强器处理;未经增强的提示往往会产生明显较差的结果。 在 prompts/ 下创建一个 JSON 文件。每个文件是一个包含 prompts 列表的单一对象,其中每个字符串代表一个完整的镜头。单个字符串生成一个镜头;多个字符串生成多镜头故事,每个新镜头通过成对的音视频记忆库基于之前的镜头进行条件化。 在每个字符串内,按顺序写入以下部分:
| 部分 | 描述内容 |
|---|---|
| 角色与主体 | 描述所有可见人物的外观,包括年龄、体型、头发、面部、衣着,以及适用的说话音色。 |
| 动作与对话 | 主体做什么以及说什么。 |
| 风格 | 整体的视觉与情感美学——例如,写实的赛车电影语言、冷色调日光、克制的电影紧张感。 |
| 镜头运动 | 镜头类型和构图或运动——例如,面部稳定特写,或腰部以上的中景。 |
| 背景 | 主体背后的环境与场景细节。 |
| 音效与背景音乐 | 场景中的声音和背景音乐——例如,房间环境声、风声、脚步声与织物摩擦声,对话下轻柔低音乐垫,或无背景音乐。 |
更方便的提示编写工作流将在后续以导演智能体的形式发布供大家使用。
4. 运行
python inference.py
输出将位于 inference_result/outputs/<story_name>/inference_<timestamp>/。
硬件要求
在默认的 1280 × 736 × 241 帧设置下,峰值 GPU 显存约为 46–50 GB——单张 H100/A100(80 GB)或 48 GB 显存的 GPU 即可满足。对于较小显存的 GPU,可降低分辨率或帧数:
python inference.py --num-frames 121 --video-height 480 --video-width 832
效果
报告规模
| 指标 | 数值 |
|---|---|
| 🎬 长格式连贯故事长度 | 5 分钟 |
| ⚡ 相比原始多步流水线的加速比 | 7.5× |
| 📚 基准测试故事数量 | 100 |
| 🎞️ 生成的评估镜头数 | 3,000 |
| 🕒 每镜头帧数 | 241 @ 25 fps |
人工评估
GSB 用户研究。数值为用户偏好的百分比。
| 方面(长视频) | JoyAI-Echo | 持平 | HappyOyster (导演模式) |
|---|---|---|---|
| 视觉美学 | 63.6% | 8.8% | 27.6% |
| 音频质量 | 81.7% | 6.5% | 11.8% |
| 提示遵循度 | 80.6% | 13.5% | 5.9% |
| 身份一致性 | 59.4% | 12.9% | 27.7% |
| 方面(短视频) | JoyAI-Echo | 持平 | Wan 2.6 |
|---|---|---|---|
| 视觉美学 | 58.8% | 14.7% | 26.5% |
| 音频质量 | 32.3% | 30.9% | 36.8% |
| 提示遵循度 | 33.8% | 36.8% | 29.4% |
致谢
我们衷心感谢 LTX-Video (https://github.com/Lightricks/LTX-Video) 提供基础视频生成器,以及 Gemma (https://huggingface.co/google/gemma-3-12b-it) 提供文本编码器,并感谢更广泛的开源社区。
引用
如果 Echo-LongVideo 有助于您的研究或产品,请引用:
title = {Echo-LongVideo: Pushing the Frontier of Long Video Generation},
author = {{Echo Team @ Joy Future Academy, JD}},
institution = {Joy Future Academy, JD},
year = {2026},
month = {June},
url = {https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo}
} ```
## 许可证
依据 LTX-2 社区许可协议 (https://github.com/Lightricks/LTX-2/blob/main/LICENSE) 发布。通过下载或使用这些权重,即表示您同意其条款。附带的 Gemma 文本编码器受 Google 单独的 Gemma 许可证管辖。
相似文章
@AdinaYakup: JD刚刚发布了JoyAI-Echo,一个有趣的长视频生成模型,5分钟多镜头视频生成,跨模态……
JD发布了JoyAI-Echo,这是一个长视频生成模型,能够生成5分钟多镜头视频,具备跨模态记忆实现角色和声音一致性,原生音视频生成,并通过DMD蒸馏技术实现7.5倍速度提升(无质量损失)。
ResembleAI/Dramabox
Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。
开源:将声音模仿转化为音效(声音生成的新用户体验)
一个开源AI模型,通过声音模仿和文字描述生成音效,解决了搜索特定声音的难题。
Aratako/Irodori-TTS-500M-v3
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。