tencent/HY-World-2.0
摘要
HY-World 2.0 是腾讯开源的跨模态3D世界模型,能够从文本、图像和视频中重建和生成3D世界,生成可编辑的3D资产(网格/高斯泼溅),效果与闭源方法相当。
查看缓存全文
缓存时间: 2026/04/20 14:45
tencent/HY-World-2.0 · Hugging Face
来源:https://huggingface.co/tencent/HY-World-2.0
HY-World 2.0:用于重建、生成和模拟3D世界的多模态世界模型
English (https://huggingface.co/tencent/HY-World-2.0/blob/main/README.md)|简体中文 (https://huggingface.co/tencent/HY-World-2.0/blob/main/README_zh.md)
HY-World-2.0 预告
“如今已被证明的,曾经只是想象”
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%8E%A5-video🎥 视频
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%94%A5-news🔥 新闻
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%93%8B-table-of-contents📋 目录
- 📖 简介 (https://huggingface.co/tencent/HY-World-2.0#-introduction)
- ✨ 亮点 (https://huggingface.co/tencent/HY-World-2.0#-highlights)
- 🧩 架构 (https://huggingface.co/tencent/HY-World-2.0#-architecture)
- 📝 开源计划 (https://huggingface.co/tencent/HY-World-2.0#-open-source-plan)
- 🎁 模型库 (https://huggingface.co/tencent/HY-World-2.0#-model-zoo)
- 🤗 快速开始 (https://huggingface.co/tencent/HY-World-2.0#-get-started)
- 🔮 性能 (https://huggingface.co/tencent/HY-World-2.0#-performance)
- 🎬 更多示例 (https://huggingface.co/tencent/HY-World-2.0#-more-examples)
- 📚 引用 (https://huggingface.co/tencent/HY-World-2.0#-citation)
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%93%96-introduction📖 简介
HY-World 2.0 是一个用于世界生成和世界重建的多模态世界模型框架。它接受多种输入模态——文本、单视图图像、多视图图像和视频——并生成3D世界表示(网格/高斯泼溅)。它提供两个核心能力:
HY-World 2.0 是首个开源的最先进3D世界模型,其效果可与 Marble 等闭源方法相媲美。我们将发布所有模型权重、代码和技术细节,以促进可复现性并推动该领域的研究进展。
https://huggingface.co/tencent/HY-World-2.0#why-3d-world-models为什么是3D世界模型?
现有的世界模型,如 Genie 3、Cosmos 和 HY-World 1.5(WorldPlay+WorldCompass),生成的是像素级视频——本质上就像“看一场电影”,播放结束后便消失无踪。HY-World 2.0 采用了一种根本不同的方法:它直接生成可编辑、持久的3D资产(网格/3DGS),可以导入到 Blender/Unity/Unreal Engine/Isaac Sim 等游戏引擎中——更像是“构建一个可玩的游戏”而非录制一段视频。这种范式转变天然地解决了视频世界模型长期存在的许多痛点:
| 视频世界模型 | 3D世界模型 (HY-World 2.0) |
|---|---|
| 输出 | 像素视频(不可编辑) |
| 可玩时长 | 有限(通常 < 1 分钟) |
| 3D一致性 | 差(跨视图闪烁、伪影) |
| 实时渲染 | 需要逐帧推理;高延迟 |
| 可控性 | 弱(角色控制不精确,无真实物理) |
| 推理成本 | 每次交互累积增加 |
| 引擎兼容性 | ✗ 仅限于视频文件 |
| \color{IndianRed}\{\textsf{看视频,然后消失}\} |
以上均为真实3D资产(非生成视频),完全由 HY-World 2.0 创建——来自实时交互的屏幕录制。
https://huggingface.co/tencent/HY-World-2.0#%E2%9C%A8-highlights✨ 亮点
-
真实3D世界,而非仅仅视频 与仅输出视频的世界模型(如 Genie 3、HY World 1.5)不同,HY-World 2.0 生成真实的3D资产——3DGS、网格和点云——可自由探索、编辑,并直接导入Unity / Unreal Engine / Isaac。从单一文本提示或图像出发,创建可导航的3D世界,风格多样:写实、卡通、游戏等。
-
从照片和视频即时3D重建 由WorldMirror 2.0驱动,这是一个统一的前馈模型,能从多视图图像或随意拍摄的视频中,通过单次前向传播预测稠密点云、深度图、表面法线、相机参数和3DGS。支持灵活分辨率推理(5万–50万像素),达到SOTA精度。拍摄一段视频,即可获得一个数字孪生。
-
交互式角色探索 超越观看——在生成的世界中游玩。HY-World 2.0 支持第一人称导航和第三人称角色模式,使用户能够在基于物理碰撞的机制下,自由探索AI生成的街道、建筑和景观。请访问我们的产品页面免费试用。
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%A7%A9-architecture🧩 架构
- 更多细节请参考我们的技术报告 HY-World 2.0 的系统化流水线——全景图生成 (HY-Pano-2.0) → 轨迹规划 (WorldNav) → 世界扩展 (WorldStereo 2.0) → 世界合成 (WorldMirror 2.0 + 3DGS)——自动将文本或单张图像转化为高保真、可导航的3D世界(3DGS/网格输出)。
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%93%9D-open-source-plan📝 开源计划
- ✅ 技术报告
- ✅ WorldMirror 2.0 代码和模型检查点
- ⬜ 世界生成的完整推理代码(WorldNav + 世界合成)
- ⬜ 全景图生成(HY-Pano 2.0)模型和代码——HunyuanWorld 1.0 (https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0) 可作为临时替代方案
- ⬜ 世界扩展(WorldStereo 2.0)模型和代码——WorldStereo (https://github.com/FuchengSu/WorldStereo) 可作为临时替代方案
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%8E%81-model-zoo🎁 模型库
https://huggingface.co/tencent/HY-World-2.0#world-reconstruction–worldmirror-series世界重建 —— WorldMirror 系列
| 模型 | 描述 | 参数量 | 日期 | Hugging Face |
|---|---|---|---|---|
| WorldMirror 2.0 | 多视图/视频 → 3D重建 | ~1.2B | 2026 | 下载 (https://huggingface.co/tencent/HY-World-2.0/HY-WorldMirror-2.0) |
| WorldMirror 1.0 | 多视图/视频 → 3D重建(旧版) | ~1.2B | 2025 | 下载 (https://huggingface.co/tencent/HunyuanWorld-Mirror/tree/main) |
https://huggingface.co/tencent/HY-World-2.0#panorama-generation全景图生成
| 模型 | 描述 | 参数量 | 日期 | Hugging Face |
|---|---|---|---|---|
| HY-PanoGen | 文本/图像 → 360°全景图 | — | 即将发布 | — |
https://huggingface.co/tencent/HY-World-2.0#world-generation世界生成
| 模型 | 描述 | 参数量 | 日期 | Hugging Face |
|---|---|---|---|---|
| WorldStereo 2.0 | 全景图 → 可导航3DGS世界 | — | 即将发布 | — |
我们建议参考我们之前的工作 WorldStereo (https://github.com/FuchengSu/WorldStereo) 和 WorldMirror (https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror),以获取关于世界生成和重建的背景知识。
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%A4%97-get-started🤗 快速开始
https://huggingface.co/tencent/HY-World-2.0#install-requirements安装要求
我们建议使用 CUDA 12.4 进行安装。
# 1. 克隆仓库
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
# 2. 创建 conda 环境
conda create -n hyworld2 python=3.10
conda activate hyworld2
# 3. 安装 PyTorch (CUDA 12.4)
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
# 4. 安装依赖
pip install -r requirements.txt
# 5. 安装 FlashAttention
# (推荐)安装 FlashAttention-3
git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention/hopper
python setup.py install
cd ../../
rm -rf flash-attention
# 如需更简单的安装,也可以使用 FlashAttention-2
pip install flash-attn --no-build-isolation
https://huggingface.co/tencent/HY-World-2.0#code-usage–panorama-generation-hy-pano-2代码用法 —— 全景图生成 (HY-Pano-2)
即将发布。
https://huggingface.co/tencent/HY-World-2.0#code-usage–world-generation-worldnav-worldstereo-2-and-3dgs代码用法 —— 世界生成 (WorldNav, WorldStereo-2 和 3DGS)
即将发布。
我们建议参考我们之前的工作 WorldStereo (https://github.com/FuchengSu/WorldStereo),以获取 WorldStereo-2 的开源预览版。
https://huggingface.co/tencent/HY-World-2.0#code-usage–worldmirror-20代码用法 —— WorldMirror 2.0
WorldMirror 2.0 支持以下使用模式:
- 代码用法 (https://huggingface.co/tencent/HY-World-2.0#code-usage–worldmirror-20)
- Gradio 应用 (https://huggingface.co/tencent/HY-World-2.0#gradio-app–worldmirror-20)
我们为 WorldMirror 2.0 提供了类似 diffusers 的 Python API。模型权重将在首次运行时自动从 Hugging Face 下载。
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')
result = pipeline('path/to/images')
使用先验注入(相机和深度):
result = pipeline(
'path/to/images',
prior_cam_path='path/to/prior_camera.json',
prior_depth_path='path/to/prior_depth/',
)
关于相机/深度先验的详细结构及如何准备,请参见先验准备指南 (https://huggingface.co/tencent/HY-World-2.0/blob/main/DOCUMENTATION.md#prior-injection)。
命令行界面:
# 单 GPU
python -m hyworld2.worldrecon.pipeline --input_path path/to/images
# 多 GPU
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.pipeline \
--input_path path/to/images \
--use_fsdp --enable_bf16
重要提示:在多 GPU 模式下,输入图像数量必须>= GPU 数量。例如,使用
--nproc_per_node=8时,请至少提供 8 张图像。
https://huggingface.co/tencent/HY-World-2.0#gradio-app–worldmirror-20Gradio 应用 —— WorldMirror 2.0
我们为 WorldMirror 2.0 提供了一个交互式 Gradio (https://www.gradio.app/) 网页演示。上传图像或视频,即可在浏览器中可视化 3DGS、点云、深度图、法线图和相机参数。
# 单 GPU
python -m hyworld2.worldrecon.gradio_app
# 多 GPU
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.gradio_app \
--use_fsdp --enable_bf16
关于 Gradio 应用的完整参数列表(端口、分享、本地检查点等),请参见 DOCUMENTATION.md (https://huggingface.co/tencent/HY-World-2.0/blob/main/DOCUMENTATION.md#gradio-app)。
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%94%AE-performance🔮 性能
完整的基准测试结果,请参考技术报告 (https://3d-models.hunyuan.tencent.com/world/)。
https://huggingface.co/tencent/HY-World-2.0#worldstereo-20–camera-controlWorldStereo 2.0 —— 相机控制
| 方法 | 相机指标 | 视觉质量 |
|---|---|---|
| RotErr ↓ | TransErr ↓ | |
| SEVA | 1.690 | 1.578 |
| Gen3C | 0.944 | 1.580 |
| WorldStereo | 0.762 | 1.245 |
| WorldStereo 2.0 | 0.492 | 0.968 |
https://huggingface.co/tencent/HY-World-2.0#worldstereo-20–single-view-generated-reconstructionWorldStereo 2.0 —— 单视图生成重建
| 方法 | Tanks-and-Temples | MipNeRF360 |
|---|---|---|
| Precision ↑ | Recall ↑ | |
| SEVA | 33.59 | 35.34 |
| Gen3C | 46.73 | 25.51 |
| Lyra | 50.38 | 28.67 |
| FlashWorld | 26.58 | 20.72 |
| WorldStereo 2.0 | 43.62 | 41.02 |
| WorldStereo 2.0 (DMD) | 40.41 | 44.41 |
https://huggingface.co/tencent/HY-World-2.0#worldmirror-20–point-map-reconstructionWorldMirror 2.0 —— 点图重建
**在 7-Scenes、NRGBD 和 DTU 数据集上的点图重建。**我们报告了 WorldMirror 在不同输入配置下的平均准确度和完整度。加粗结果最佳。“L / M / H”分别表示低/中/高推理分辨率。“+ all priors”表示注入相机外参、相机内参和深度先验。
| 方法 | 7-Scenes (场景) | NRGBD (场景) | DTU (物体) |
|---|---|---|---|
| Acc. ↓ | Comp. ↓ | Acc. ↓ | |
| WorldMirror 1.0 | |||
| L | 0.043 | 0.055 | 0.046 |
| L + all priors | 0.021 | 0.026 | 0.022 |
| M | 0.043 | 0.049 | 0.041 |
| M + all priors | 0.018 | 0.023 | 0.016 |
| H | 0.079 | 0.087 | 0.077 |
| H + all priors | 0.042 | 0.041 | 0.078 |
| WorldMirror 2.0 | |||
| L | 0.041 | 0.052 | 0.047 |
| L + all priors | 0.019 | 0.024 | 0.017 |
| M | 0.033 | 0.046 | 0.039 |
| M + all priors | 0.013 | 0.017 | 0.013 |
| H | 0.037 | 0.040 | 0.046 |
| H + all priors | 0.012 | 0.016 | 0.015 |
https://huggingface.co/tencent/HY-World-2.0#worldmirror-20–prior-comparisonWorldMirror 2.0 —— 先验比较
**与 Pow3R 和 MapAnything 在不同先验条件下的比较。**结果基于 7-Scenes、NRGBD 和 DTU 数据集的平均值。Pow3R (pro) 指使用 Procrustes 对齐的原始 Pow3R。
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%8E%AC-more-examples🎬 更多示例
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%93%96-documentation📖 文档
有关详细的使用指南、参数参考、输出格式规范和先验注入说明,请参见 DOCUMENTATION.md (https://huggingface.co/tencent/HY-World-2.0/blob/main/DOCUMENTATION.md)。
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%93%9A-citation📚 引用
如果您发现 HunyuanWorld 2.0 对您的研究有帮助,请引用:
@article{hyworld22026,
title={HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds},
author={Tencent HY-World Team},
journal={arXiv preprint},
year={2026}
}
@article{hunyuanworld2025tencent,
title={HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels},
author={Team HunyuanWorld},
year={2025},
journal={arXiv preprint}
}
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%93%A7-contact📧 联系方式
如有疑问或反馈,请发送邮件至 [email protected]。
https://huggingface.co/tencent/HY-World-2.0#%F0%9F%99%8F-acknowledgements🙏 致谢
我们感谢 HunyuanWorld 1.0 (https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0)、WorldMirror (https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror)、WorldPlay (https://github.com/Tencent-Hunyuan/HY-WorldPlay)、WorldStereo (https://github.com/FuchengSu/WorldStereo)、HunyuanImage (https://github.com/Tencent-Hunyuan/HunyuanImage-3.0) 的出色工作。
相似文章
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
tencent/HY-Embodied-0.5
腾讯发布了HY-Embodied-0.5,这是一套为具身AI智能体设计的基础模型套件,采用混合变换器(MoT)架构,提供高效的2B和强大的32B变体,用于真实世界的机器人控制和时空推理。
Genie 3:世界模型的新前沿
DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。
Claude Opus 4.7、Qwen 3.6、Happy Oyster、实时3D世界、全新Google TTS:AI新闻
Anthropic、阿里巴巴、谷歌等巨头集中发布重磅模型——Claude Opus 4.7、Qwen 3.6、情感丰富的Google TTS,还有仅1.58-bit的手机LLM与实时3D世界生成器,同时开放视频、VR及角色创作工具。
@HuggingModels:认识 Hunyuan3D-2——这款开源模型可把 2D 图片秒变完整 3D 资产
Hunyuan3D-2 是一款开源 AI 模型,可将 2D 图片即时转换为完整 3D 资产,无需复杂建模软件。