PhysForge:为交互式虚拟世界生成具备物理基础的 3D 资产
摘要
PhysForge 是一个两阶段框架,能够生成具备物理基础和运动学参数的交互式 3D 资产,解决了虚拟世界中静态几何模型带来的瓶颈问题。
查看缓存全文
缓存时间: 2026/05/08 08:11
论文页面 - PhysForge:为交互式虚拟世界生成物理接地 3D 资产
来源:https://huggingface.co/papers/2605.05163
摘要
PhysForge 通过结合用于物理规划的视觉-语言模型(VLM)与一种新型注入机制,利用物理接地扩散模型合成详细的几何结构和运动学参数,从而生成交互式 3D 资产。
合成物理接地的 3D 资产是交互式虚拟世界和具身智能体的关键瓶颈。现有方法主要侧重于静态几何结构,忽视了交互所需的功能属性。我们提出,交互式资产生成必须以功能逻辑和分层物理为基础。为了弥合这一差距,我们提出了 PhysForge,这是一种由 PhysDB(包含 15 万个资产和四级物理标注的大规模数据集)支持的两阶段解耦框架。首先,视觉-语言模型作为“物理架构师”,规划出定义材料、功能和运动学约束的“分层物理蓝图”(Hierarchical Physical Blueprint)。其次,物理接地扩散模型(physics-grounded diffusion model)通过新颖的 KineVoxel 注入(KineVoxel Injection)(KVI)机制,实现该蓝图,合成高保真几何结构及精确的运动学参数(kinematic parameters)。实验表明,PhysForge 能够生成功能合理、可直接用于模拟的资产(simulation-ready assets),为交互式 3D 内容和具身智能体提供了稳健的数据引擎。
查看 arXiv 页面 (https://arxiv.org/abs/2605.05163) 查看 PDF (https://arxiv.org/pdf/2605.05163) 项目页面 (https://hku-mmlab.github.io/PhysForge/) GitHub44 (https://github.com/HKU-MMLab/PhysForge) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05163)
在您的代理中获取此论文:
hf papers read 2605\.05163
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
请在模型 README.md 中引用 arxiv.org/abs/2605.05163 以从本页面链接它。
引用此论文的数据集 0
没有链接此论文的数据集
请在数据集 README.md 中引用 arxiv.org/abs/2605.05163 以从本页面链接它。
引用此论文的 Spaces 0
没有链接此论文的 Space
请在 Space README.md 中引用 arxiv.org/abs/2605.05163 以从本页面链接它。
包含此论文的合集 1
相似文章
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
tencent/HY-World-2.0
HY-World 2.0 是腾讯开源的跨模态3D世界模型,能够从文本、图像和视频中重建和生成3D世界,生成可编辑的3D资产(网格/高斯泼溅),效果与闭源方法相当。
@servasyy_ai: 3D开发者多年来苦练的物理演算,仅凭一句话就能搞定。 从英语指令生成复杂的3D粒子效果,并能立即输出React或three.js代码的免费工具问世。 数学与物理引擎的壁垒消失,即时将创意转化为实体的时代到来。 体验
一款免费工具发布,能够根据英语指令生成复杂的3D粒子效果,并直接输出React或three.js代码,降低了3D物理演算的门槛。
Waypoint-1.5: 面向日常GPU的更高保真交互式世界
Overworld发布Waypoint-1.5,一款面向日常GPU的实时视频世界模型,具备改进的视觉保真度,并新增360p和720p档位以支持更广泛的硬件设备。
Genie 3:世界模型的新前沿
DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。