jdopensource/JoyAI-Echo

Hugging Face Models Trending 模型

摘要

京东开源发布了JoyAI-Echo(Echo-LongVideo),这是一个文本到音视频扩散模型,能够生成分钟级的多镜头视频,保持角色身份和声音一致,并利用DMD蒸馏实现了7.5倍的速度提升。

任务:文生视频 标签:ltx-video, JoyAI-Echo, 文生视频, 视频生成, 音视频生成, 长视频, 多镜头, DMD, 许可证:其他, 地区:美国
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:15

jdopensource/JoyAI-Echo · Hugging Face 来源:https://huggingface.co/jdopensource/JoyAI-Echo Echo-LongVideo 生成的视频集锦 ## Echo-LongVideo 🎬 推动长视频生成的边界 面向分钟级、多镜头、音视频生成的官方模型权重,采用蒸馏后的 DMD 生成器、成对跨模态记忆以及故事级一致性。 📄 论文 (https://huggingface.co/jdopensource/LongVideo_Tech_Report.pdf) | 💻 推理代码 (https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo) | 🧬 模型 (https://huggingface.co/jdopensource/JoyAI-Echo#model-details) | 🚀 使用方法 (https://huggingface.co/jdopensource/JoyAI-Echo#usage) | 📊 效果 (https://huggingface.co/jdopensource/JoyAI-Echo#results) | 📝 引用 (https://huggingface.co/jdopensource/JoyAI-Echo#citation) 文生视频 音频+视频 5分钟长视频 模型权重 ## 模型概要 Echo-LongVideo(亦称 JoyAI-Echo)是一个长格式、多镜头、音视频生成模型。一个跨模态的视听记忆库能够一致地保留角色外观和音色,最长支持五分钟的视频;结合基于记忆的强化学习与分布匹配蒸馏(DMD)的后训练流程,在保证质量的前提下实现了7.5 倍的推理加速。人工评测中,Echo-LongVideo 在长视频生成方面显著优于 HappyOyster(导演模式),并在以人物为中心的任务上超越了短视频专项模型 Wan 2.6。本仓库存放已发布的检查点。推理代码另行发布——请参见“使用方法”部分。 ## 模型详情 - 开发团队: Echo Team @ Joy Future Academy,京东 - 模型类型: 文本转(音频+视频)扩散 Transformer,DMD 8 步 - 模态: 文本 → 同步的视频+音频 - 骨干网络: 基于 LTX-Video (https://github.com/Lightricks/LTX-Video) 构建 - 文本编码器: google/gemma-3-12b-it (https://huggingface.co/google/gemma-3-12b-it)(需单独下载) - 分辨率/时长(默认): 1280 × 736,每镜头 241 帧 @ 25 fps - 最大故事长度: 最长 5 分钟(多镜头) - 许可证: LTX-2 社区许可协议 ## 亮点 - 🎞️ 通过单个人物提示 JSON 生成分钟级多镜头故事。 - ⚡ DMD 蒸馏后的少步推理,比原始流水线快约 7.5 倍。 - 🔊 在单一流水线中联合生成音频与视频。 - 🧠 成对跨模态记忆库,保证故事级身份与语音一致性。 ## 使用方法 推理通过独立的 Echo-LongVideo 推理仓库运行。 ### 1. 下载检查点 huggingface-cli download /Echo-LongVideo \ --local-dir checkpoints 同时下载 Gemma 文本编码器: huggingface-cli download google/gemma-3-12b-it \ --local-dir checkpoints/gemma-3-12b 期望的文件结构: checkpoints/ ├── echo-longvideo-release.safetensors └── gemma-3-12b/ ### 2. 获取推理代码 git clone https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo.git cd JoyAI-Echo 环境要求:Python 3.11 + PyTorch 2.8 + CUDA 12.8(参见推理仓库中的 environment.yml / requirements.txt)。 ### 3. 编写故事提示 首先完善你的提示。 我们提供了提示增强器——系统提示,可将简短故事或创意扩展为格式良好的镜头提示: - prompts/long_story_writer_system_prompt.md:用于长多镜头视频 - prompts/short_story_writer_system_prompt.md:用于单镜头短视频 我们强烈建议在推理之前将输入通过相应的增强器处理;未经增强的提示往往会产生明显较差的结果。 在 prompts/ 下创建一个 JSON 文件。每个文件是一个包含 prompts 列表的单一对象,其中每个字符串代表一个完整的镜头。单个字符串生成一个镜头;多个字符串生成多镜头故事,每个新镜头通过成对的音视频记忆库基于之前的镜头进行条件化。 在每个字符串内,按顺序写入以下部分:

部分描述内容
角色与主体描述所有可见人物的外观,包括年龄、体型、头发、面部、衣着,以及适用的说话音色。
动作与对话主体做什么以及说什么。
风格整体的视觉与情感美学——例如,写实的赛车电影语言、冷色调日光、克制的电影紧张感。
镜头运动镜头类型和构图或运动——例如,面部稳定特写,或腰部以上的中景。
背景主体背后的环境与场景细节。
音效与背景音乐场景中的声音和背景音乐——例如,房间环境声、风声、脚步声与织物摩擦声,对话下轻柔低音乐垫,或无背景音乐。

更方便的提示编写工作流将在后续以导演智能体的形式发布供大家使用。

4. 运行

python inference.py 输出将位于 inference_result/outputs/<story_name>/inference_<timestamp>/

硬件要求

在默认的 1280 × 736 × 241 帧设置下,峰值 GPU 显存约为 46–50 GB——单张 H100/A100(80 GB)或 48 GB 显存的 GPU 即可满足。对于较小显存的 GPU,可降低分辨率或帧数: python inference.py --num-frames 121 --video-height 480 --video-width 832

效果

报告规模

指标数值
🎬 长格式连贯故事长度5 分钟
⚡ 相比原始多步流水线的加速比7.5×
📚 基准测试故事数量100
🎞️ 生成的评估镜头数3,000
🕒 每镜头帧数241 @ 25 fps

人工评估

GSB 用户研究。数值为用户偏好的百分比。

方面(长视频)JoyAI-Echo持平HappyOyster (导演模式)
视觉美学63.6%8.8%27.6%
音频质量81.7%6.5%11.8%
提示遵循度80.6%13.5%5.9%
身份一致性59.4%12.9%27.7%
方面(短视频)JoyAI-Echo持平Wan 2.6
视觉美学58.8%14.7%26.5%
音频质量32.3%30.9%36.8%
提示遵循度33.8%36.8%29.4%

致谢

我们衷心感谢 LTX-Video (https://github.com/Lightricks/LTX-Video) 提供基础视频生成器,以及 Gemma (https://huggingface.co/google/gemma-3-12b-it) 提供文本编码器,并感谢更广泛的开源社区。

引用

如果 Echo-LongVideo 有助于您的研究或产品,请引用:

  title = {Echo-LongVideo: Pushing the Frontier of Long Video Generation},
  author = {{Echo Team @ Joy Future Academy, JD}},
  institution = {Joy Future Academy, JD},
  year = {2026},
  month = {June},
  url = {https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo}
} ```

## 许可证
依据 LTX-2 社区许可协议 (https://github.com/Lightricks/LTX-2/blob/main/LICENSE) 发布。通过下载或使用这些权重,即表示您同意其条款。附带的 Gemma 文本编码器受 Google 单独的 Gemma 许可证管辖。

相似文章

ResembleAI/Dramabox

Hugging Face Models Trending

Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。