PhysForge:为交互式虚拟世界生成具备物理基础的 3D 资产

Hugging Face Daily Papers 论文

摘要

PhysForge 是一个两阶段框架,能够生成具备物理基础和运动学参数的交互式 3D 资产,解决了虚拟世界中静态几何模型带来的瓶颈问题。

合成具备物理基础的 3D 资产是交互式虚拟世界和具身智能发展的关键瓶颈。现有方法主要侧重于静态几何结构,忽略了交互所需的关键功能属性。我们提出,交互式资产生成必须植根于功能逻辑和分层物理体系。为弥合这一差距,我们推出了 PhysForge,这是一个由 PhysDB(一个包含 15 万个资产且具有四级物理标注的大规模数据集)支持的两阶段解耦框架。首先,视觉语言模型(VLM)作为“物理架构师”规划“分层物理蓝图”,定义材料、功能和运动学约束。其次,一个具备物理基础的扩散模型通过新颖的 KineVoxel 注入(KVI)机制实现该蓝图,在合成高保真几何结构的同时生成精确的运动学参数。实验表明,PhysForge 能够生成功能合理、可直接用于仿真的资产,为交互式 3D 内容和具身智能代理提供了强大的数据引擎。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:11

论文页面 - PhysForge:为交互式虚拟世界生成物理接地 3D 资产

来源:https://huggingface.co/papers/2605.05163

摘要

PhysForge 通过结合用于物理规划的视觉-语言模型(VLM)与一种新型注入机制,利用物理接地扩散模型合成详细的几何结构和运动学参数,从而生成交互式 3D 资产。

合成物理接地的 3D 资产是交互式虚拟世界和具身智能体的关键瓶颈。现有方法主要侧重于静态几何结构,忽视了交互所需的功能属性。我们提出,交互式资产生成必须以功能逻辑和分层物理为基础。为了弥合这一差距,我们提出了 PhysForge,这是一种由 PhysDB(包含 15 万个资产和四级物理标注的大规模数据集)支持的两阶段解耦框架。首先,视觉-语言模型作为“物理架构师”,规划出定义材料、功能和运动学约束的“分层物理蓝图”(Hierarchical Physical Blueprint)。其次,物理接地扩散模型(physics-grounded diffusion model)通过新颖的 KineVoxel 注入(KineVoxel Injection)(KVI)机制,实现该蓝图,合成高保真几何结构及精确的运动学参数(kinematic parameters)。实验表明,PhysForge 能够生成功能合理、可直接用于模拟的资产(simulation-ready assets),为交互式 3D 内容和具身智能体提供了稳健的数据引擎。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05163) 查看 PDF (https://arxiv.org/pdf/2605.05163) 项目页面 (https://hku-mmlab.github.io/PhysForge/) GitHub44 (https://github.com/HKU-MMLab/PhysForge) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05163)

在您的代理中获取此论文:

hf papers read 2605\.05163

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

请在模型 README.md 中引用 arxiv.org/abs/2605.05163 以从本页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2605.05163 以从本页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

请在 Space README.md 中引用 arxiv.org/abs/2605.05163 以从本页面链接它。

包含此论文的合集 1

相似文章

tencent/HY-World-2.0

Hugging Face Models Trending

HY-World 2.0 是腾讯开源的跨模态3D世界模型,能够从文本、图像和视频中重建和生成3D世界,生成可编辑的3D资产(网格/高斯泼溅),效果与闭源方法相当。

Genie 3:世界模型的新前沿

Google DeepMind Blog

DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。