nvidia/Lyra-2.0
摘要
Lyra 2.0 是 NVIDIA 的框架,用于从单张图像生成持久、可探索的 3D 世界,结合了长程视频合成与显式三维重建,并通过新颖的训练技术解决了空间遗忘和时间漂移问题。
查看缓存全文
缓存时间: 2026/04/20 14:44
nvidia/Lyra-2.0 · Hugging Face
来源: https://huggingface.co/nvidia/Lyra-2.0
https://huggingface.co/nvidia/Lyra-2.0#lyra-20-explorable-generative-3d-worldsLyra 2.0: 可探索的生成式3D世界
论文 (https://arxiv.org/abs/2604.13036),项目页面 (https://research.nvidia.com/labs/sil/projects/lyra2/)
Tianchang Shen (https://www.cs.toronto.edu/~shenti11/)*,Sherwin Bahmani (https://sherwinbahmani.github.io/),Kai He (https://www.cs.toronto.edu/~hekai/),Sangeetha Grama Srinivasan (https://pages.cs.wisc.edu/~sgsrinivasa2/),Tianshi Cao (https://scholar.google.com/citations?user=CZ9wBBoAAAAJ&hl=en),Jiawei Ren (https://jiawei-ren.github.io/),Ruilong Li (https://www.liruilong.cn/),Zian Wang (https://www.cs.toronto.edu/~zianwang/),Nicholas Sharp (https://nmwsharp.com/),Zan Gojcic (https://zgojcic.github.io/),Sanja Fidler (https://www.cs.utoronto.ca/~fidler/),Jiahui Huang (https://huangjh-pub.github.io/),Huan Ling (https://www.cs.toronto.edu/~linghuan/),Jun Gao (https://www.cs.toronto.edu/~jungao/),Xuanchi Ren (https://xuanchiren.com/)*
* 同等贡献
https://huggingface.co/nvidia/Lyra-2.0#description描述:
Lyra 2.0 是一个框架,能够从单张图像大规模生成持久且可探索的3D世界。该框架由两个关键组件组成:首先,它合成一段具有强全局几何一致性的长距离视频;其次,将生成的序列重建为显式3D表示。为了解决空间遗忘问题,我们维护逐帧3D几何,并将其仅用于信息路由——检索相关历史帧并建立与目标视角的密集对应——同时依赖生成先验进行外观合成。为了解决时间漂移问题,我们使用自增强历史进行训练,让模型接触自身退化的输出,教会它纠正漂移而非传播漂移。这种两阶段设计能够实现可扩展且空间上持久的场景生成,同时支持实时渲染。Lyra 2.0 在单图像3D场景生成方面达到了最新的最先进水平。
本模型可用于内部科学研究与开发。
https://huggingface.co/nvidia/Lyra-2.0#licenseterms-of-use许可证/使用条款
本模型根据NVIDIA内部科学研究与开发模型许可证 (https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/) 发布。
重要提示:不得分发、部署、再许可、公开显示、公开表演或再许可本模型及任何衍生模型。您不得在生产环境中使用本模型或衍生模型,也不得用于生成用于销售或分发的作品。如果您未能遵守本协议的任何条款,您在NVIDIA内部科学研究与开发模型许可证下的权利将自动终止。
https://huggingface.co/nvidia/Lyra-2.0#deployment-geography部署地域:
全球
https://huggingface.co/nvidia/Lyra-2.0#use-case-用例:
本模型旨在供开发3D世界模型技术的研究人员使用,支持从单张图像生成3D场景。
https://huggingface.co/nvidia/Lyra-2.0#release-date–发布日期:
GitHub 2026年4月14日,通过 https://github.com/nv-tlabs/lyra/tree/main/Lyra-2
https://huggingface.co/nvidia/Lyra-2.0#referencess参考文献:
Lyra 2.0: 可探索的生成式3D世界
论文 (https://arxiv.org/abs/2604.13036),项目页面 (https://research.nvidia.com/labs/sil/projects/lyra2/)
https://huggingface.co/nvidia/Lyra-2.0#model-architecture模型架构:
架构类型: 卷积神经网络 (CNN),Transformer 网络架构: Transformer
本模型基于WAN-14B (https://github.com/Wan-Video/Wan2.1/) 开发。模型参数量:14B
https://huggingface.co/nvidia/Lyra-2.0#input-输入:
输入类型: 相机参数,图像 输入格式: 一维 (1D) 相机姿态数组,二维 (2D) 图像数组。 输入参数: 相机姿态 (1D),图像 (2D) 输入其他相关属性: 输入图像应为480×832分辨率,建议相机参数使用81帧。
https://huggingface.co/nvidia/Lyra-2.0#output-输出:
输出类型: 三维 (3D) 高斯场景 输出格式: 点云文件 (例如 .ply) 输出参数: 一组3D高斯,每个高斯由一组属性定义。 输出其他相关属性: 输出不是2D图像序列,而是一组用于渲染场景的3D基元。对于M个高斯中的每一个,关键属性包括:
- 位置 (均值): 一个3D向量 (x,y,z),定义高斯在3D空间中的中心。
- 协方差 (形状与方向): 定义椭球体的形状和旋转。通常存储为3D缩放向量 (s_x, s_y, s_z) 和4D旋转四元数 (r_w, r_x, r_y, r_z)。
- 颜色: 一个3向量 (R,G,B),表示高斯的颜色。也可以使用更复杂的球谐 (SH) 系数表示视角相关颜色效果。
- 不透明度: 一个标量值 (α),控制高斯的透明度。
我们的AI模型设计并/或优化为在NVIDIA GPU加速系统H100和GB200上运行。通过利用NVIDIA硬件 (例如GPU核心) 和软件框架 (例如CUDA库),该模型相比纯CPU方案实现了更快的训练和推理时间。
https://huggingface.co/nvidia/Lyra-2.0#software-integration软件集成:
运行时引擎:
- WAN-2.1 (https://github.com/Wan-Video/Wan2.1/)
支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
首选/支持的操作系统:
- [Linux]
将基础模型和微调模型集成到AI系统中需要额外使用特定用例数据测试,以确保安全有效部署。遵循V模型方法论,在单元和系统层面进行迭代测试和验证至关重要,以降低风险,满足技术和功能需求,并确保在部署前符合安全与道德标准。
https://huggingface.co/nvidia/Lyra-2.0#model-versions模型版本:
- V1.0
https://huggingface.co/nvidia/Lyra-2.0#training-testing-and-evaluation-datasets训练、测试和评估数据集:
https://huggingface.co/nvidia/Lyra-2.0#training-dataset训练数据集:
- 开放域视频-文本语料库 (仅限研究用途)
数据模态: 文本,视频,视频深度
视频训练数据大小:
- 少于10,000小时
数据集的数据收集方法:
- 混合:合成、自动、人工
数据集的标注方法:
- 合成、自动、人工
属性:
- 模态:10万图像帧与文本对,附带3D标注
- 内容性质:世界探索数据
- 语言特征:自然语言
https://huggingface.co/nvidia/Lyra-2.0#testing-dataset测试数据集:
- 开放域视频-文本语料库 (仅限研究用途)
数据模态: 文本,视频,视频深度
视频训练数据大小:
- 少于10,000小时
数据集的数据收集方法:
- 混合:合成、自动、人工
数据集的标注方法:
- 合成、自动、人工
属性:
- 模态:1千图像帧与文本对,附带3D标注
- 内容性质:世界探索数据
- 语言特征:自然语言
https://huggingface.co/nvidia/Lyra-2.0#evaluation-dataset评估数据集:
- 开放域视频-文本语料库 (仅限研究用途)
数据模态: 文本,视频,视频深度
视频训练数据大小:
- 少于10,000小时
数据集的数据收集方法:
- 混合:合成、自动、人工
数据集的标注方法:
- 合成、自动、人工
属性:
- 模态:1千图像帧与文本对,附带3D标注
- 内容性质:世界探索数据
- 语言特征:自然语言
https://huggingface.co/nvidia/Lyra-2.0#inference推理:
加速引擎: WAN-2.1 (https://github.com/Wan-Video/Wan2.1/) 测试硬件:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
https://huggingface.co/nvidia/Lyra-2.0#computational-load计算负载:
该模型在32个H100节点上训练了4000次迭代。估计训练Token消耗约为240亿。
https://huggingface.co/nvidia/Lyra-2.0#ethical-considerations伦理考虑:
NVIDIA认为可信AI是共同责任,我们已建立政策和实践,以支持广泛的AI应用开发。在根据服务条款下载或使用时,开发人员应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并应对未预料的产品滥用。有关此模型伦理考虑的更多详细信息,请参阅Model Card++ 偏见、可解释性、安全与隐私子卡。
用户对模型输入和输出负责。用户负责确保此模型的安全集成,包括在部署前实施护栏及其他安全机制。
请在此报告模型质量、风险、安全漏洞或NVIDIA AI相关问题:here (https://www.nvidia.com/en-us/support/submit-security-vulnerability/)。
https://huggingface.co/nvidia/Lyra-2.0#plus-plus–promisePlus Plus (++) 承诺
我们重视您、数据集、它们所代表的多样性以及我们所受托的责任。此模型及其相关数据已:
- 验证符合当前适用的披露法律、法规和行业标准。
- 验证符合适用的隐私标签要求。
- 标注以描述收集者/来源 (NVIDIA或第三方)。
- 描述技术局限性。
- 审查确保适当的披露对NVIDIA数据主体及其请求可访问、维护并符合要求。
- 发布前已审查。
- 标记已知限制和潜在安全影响。
https://huggingface.co/nvidia/Lyra-2.0#bias偏见
字段响应受不利影响群体在模型设计和测试中的参与考虑受保护类别 (https://www.senate.ca.gov/content/protected-classes): 无为减轻不期望偏见而采取的措施: 无
https://huggingface.co/nvidia/Lyra-2.0#explainability可解释性
字段响应预期任务/领域: 新视角合成,视频生成模型类型: Transformer预期用户: 物理AI开发者输出: 三维 (3D) 高斯场景描述模型工作原理: 我们以单张图像为输入,使用基于WAN-14B的模型合成具有全局几何一致性的长距离视频。然后将生成的视频重建为显式3D高斯表示,用于实时渲染。列举已测试能提供同等结果而不受影响的受不利影响群体: 不适用技术局限性及缓解措施: 所提方法依赖合成数据进行训练,若目标场景不在预生成数据集中,可能限制泛化能力。已验证符合规定的NVIDIA质量标准: 是性能指标: 定性及定量评估,包括PSNR、SSIM、LPIPS指标。潜在已知风险: 本模型基于合成数据训练,可能不准确地重建不在合成数据域内的分布外视频。许可证: NVIDIA内部科学研究与开发模型许可证 (https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/)
https://huggingface.co/nvidia/Lyra-2.0#privacy隐私
字段响应可生成或逆向工程的个人数据? 否用于创建本模型的个人数据? [未知]训练使用的所有数据集是否有来源证明? 是数据集审查频率? 发布前数据标注 (注释、元数据) 是否符合隐私法? 不适用数据是否符合数据主体的数据纠正或删除请求 (若有此类请求)? 否,外部来源数据不可行适用隐私政策https://www.nvidia.com/en-us/about-nvidia/privacy-policy/
https://huggingface.co/nvidia/Lyra-2.0#safety安全
字段响应模型应用领域: 世界生成描述可能危及生命的影响 (如有): 不适用用例限制: 遵守NVIDIA内部科学研究与开发模型许可证 (https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/)模型和数据集限制: 应用最小权限原则 (PoLP),限制数据集生成和模型开发的访问。限制在训练期间强制执行数据集访问,并遵守数据集许可证约束。
https://huggingface.co/nvidia/Lyra-2.0#citation引用
@article{shen2026lyra2, title={Lyra 2.0: Explorable Generative 3D Worlds}, author={Shen, Tianchang and Bahmani, Sherwin and He, Kai and Srinivasan, Sangeetha Grama and Cao, Tianshi and Ren, Jiawei and Li, Ruilong and Wang, Zian and Sharp, Nicholas and Gojcic, Zan and Fidler, Sanja and Huang, Jiahui and Ling, Huan and Gao, Jun and Ren, Xuanchi}, journal={arXiv preprint arXiv:2604.13036}, year={2026} }
相似文章
推出 Lyria 3 Pro
Google DeepMind 通过一段配有背景音乐的宣传片介绍了 Lyria 3 Pro,但未提供技术细节。
Lyria 3 Pro:创作更长、结构更丰富的音乐
Google 发布 Lyria 3 Pro,这是一款先进的音乐生成模型,能够生成最长 3 分钟的音轨,并提供更强的结构控制能力。该模型已集成至 Vertex AI、Google AI Studio、Gemini 和 Google Vids 等多款 Google 产品中。
使用 Lyria 3 进行开发:我们最新的音乐生成模型
Google 已发布 Lyria 3,这是其最新的音乐生成模型,开发者可通过 Gemini API 和 Google AI Studio 获取。该模型提供两个版本:适用于完整歌曲创作的 Lyria 3 Pro 和适用于制作较短片段的 Lyria 3 Clip,支持对节奏、歌词的调节以及图像转音乐的多模态输入。
用全新生成媒体模型和工具激发你的创意
Google 发布了 Veo 3 和 Imagen 4,这是下一代视频和图像生成模型,具有显著的能力提升,包括音频生成和增强的物理模拟。该公司还推出了 AI 电影制作工具 Flow,并扩大了 Lyria 2 音乐创作工具的访问权限。
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。