SimWorlds:用于动态3D场景创作的多智能体系统
摘要
SimWorlds是一个多智能体框架,能够通过自然语言生成动态、可编辑的4D场景。它利用Blender特定的程序化知识以及规划-编码-审查工作流,性能优于先前基线。
arXiv:2607.01766v1 Announce Type: new
摘要:LLM智能体越来越多地被用于以程序化方式将自然语言转化为3D场景,但现有系统集中于静态输出。仅凭文本生成动态4D场景(其中液体流动、粒子发射、刚体级联、铰接机构运动)仍然鲜有探索,尽管它们作为可编辑内容以及作为视频生成和具身AI的物理基础训练数据具有重要价值。两个挑战使动态场景与静态文本到场景的工作区分开来:智能体必须在一个连贯的场景中共同协调空间布局、多个物理求解器、时间序列、相机和光照,并且从渲染视频中验证运动正确性比判断单张图像根本更难。我们提出了SimWorlds:一个多智能体框架,能从文本生成动态、可编辑的4D场景,包含Blender特有的程序化知识、驱动固定有序构建阶段的规划-编码-审查工作流、由确定性验证器强制实施的分层场景协议,以及一套运行时状态检查工具,用于捕捉渲染图像无法揭示的机制故障。我们还引入了4DBuildBench,一个用于评估从文本提示生成的程序化动态3D场景的视觉保真度和物理一致性的基准。实验表明,SimWorlds优于先前的动态Blender生成基线。
查看缓存全文
缓存时间: 2026/07/03 05:45
# SimWorlds:用于动态 3D 场景生成的多智能体系统 来源:https://arxiv.org/html/2607.01766 Chunjiang Liu¹Xiaoyuan Wang¹Haoyu Chen²Yizhou Zhao¹ Ming\-Hsuan Yang³László A\. Jeni¹ ¹卡内基梅隆大学²哈佛大学³加州大学默塞德分校 https://dynsimworlds.github.io/ ###### 摘要 LLM 智能体越来越多地被用于以程序化方式将自然语言转化为 3D 场景,但现有系统侧重于静态输出。仅凭文本生成动态的 4D 场景(其中液体流动、粒子发射、刚体级联、铰接机构运动)仍然在很大程度上未得到探索,尽管它们作为可编辑内容以及视频生成和具身 AI 的物理基础训练数据具有重要价值。两个挑战使动态情况与静态文本到场景任务区分开来:一个智能体必须联合协调空间布局、多个物理求解器、时间序列、相机和照明于一个连贯的场景中,并且从渲染视频中验证运动正确性从根本上比判断单张图像更难。我们提出 SimWorlds:一个多智能体框架,它从文本生成动态、可编辑的 4D 场景,具有 Blender 特定的程序化知识、一个驱动固定有序构造阶段序列的规划器-编码器-审查器工作流、一个由确定性验证器强制执行的分层场景协议,以及一套运行时状态检查工具,这些工具能够捕获渲染图像无法揭示的机制故障。我们还引入了 4DBuildBench,这是一个基准测试,用于评估从文本提示生成的程序化动态 3D 场景的视觉保真度和物理一致性。实验表明,SimWorlds 优于先前的动态 Blender 生成基线。请参考标题 图1:SimWorlds 将文本转化为动态、可编辑的 3D Blender 场景。给定一个自然语言提示,规划器、编码器和审查器协作生成一个 `.blend` 文件,其几何体、材质、照明、相机和运动均可控制,便于下游编辑和重用。## 1 引言 现代的 3D 生成系统越来越被期望产生超出视觉上合理渲染的东西。对于下游的图形、模拟和内容创建工作流,期望的输出是一个可编辑的场景工件:一个 Blender 项目,其中几何体、材质、照明、相机、动画和物理求解器保持显式且可控。最近的文本到 3D 方法在对象级资产[48](https://arxiv.org/html/2607.01766#bib.bib6), [27](https://arxiv.org/html/2607.01766#bib.bib10), [61](https://arxiv.org/html/2607.01766#bib.bib12)上取得了快速进展,并且 LLM 智能体已经开始从自然语言构建静态场景[29](https://arxiv.org/html/2607.01766#bib.bib36), [59](https://arxiv.org/html/2607.01766#bib.bib37), [42](https://arxiv.org/html/2607.01766#bib.bib66), [74](https://arxiv.org/html/2607.01766#bib.bib22), [77](https://arxiv.org/html/2607.01766#bib.bib38)]。仅凭文本生成动态的 3D 场景要困难得多:一个动态场景不仅要在渲染帧中看起来正确,还必须通过正确的基础机制生成,利用刚体模拟、布料、流体、粒子、力场、变形器和关键帧控制,这通常组合在一个镜头中。这种区别暴露了静态生成中基本不存在的失败模式。在静态场景中,视觉检查是合理正确性的代理;在动态场景中,相同的渲染视频可能对应非常不同的底层状态:通过布料求解器、手动创作的形状键或关键帧网格编辑来悬垂的桌布,渲染结果相同,然而只有求解器版本在场景变化时保持可编辑、可组合和物理意义。因此,文本到动态场景生成需要机制正确性,而不仅仅是视觉合理性。现有的 Blender LLM 智能体管道并非围绕这一要求设计。大多数会渲染场景,让视觉语言模型批评图像,并修正代码,这可以捕获缺失物体和明显的材质错误,但无法判断是否存在流体域、正确配置的流向和效应器对象、以及已烘焙的缓存,或者几何体是否只是被动画化。随着物体、交互和时间阶段的增加,这些未经检查的失败会累积,最终场景在视觉上近似于提示,但作为 4D 资产仍然不可用。我们将动态 3D 场景生成形式化为基于规划、感知机制的程序合成。一个文本提示首先被转换为一个显式的场景规划,指定物体、空间组合、物理角色和运动阶段。然后,生成过程通过一个有序的、类型化的子任务序列进行,每个子任务都有自己的上下文、接受标准和验证。关键是,审查不仅限于渲染图像:智能体检查实时的 Blender 状态,检查预期的修改器是否已附加,物理缓存是否已烘焙,模拟对象是否在预期的时间阶段内移动,以及碰撞和效应器关系是否存在。我们将这种形式化实现为 SimWorlds,一个用于 Blender 中文本到 4D 场景生成的多智能体框架。规划器将提示编译成一个结构化的场景规划;然后编码器通过一个固定有序的类型化阶段序列构建场景,每个阶段由一个确定性验证器关闭,该验证器根据分层场景协议检查组装状态,并由一个审查器判断每个阶段的标准,失败的检查会触发局部重试,从而防止早期错误污染后续行为。引擎级工具让编码器和审查器都能读取 Blender 的运行时状态:修改器堆栈、物理缓存、动画通道和多角度预览。一个从上游 Blender 源自动推导的知识库按需提供程序化细节。结果是一个可编辑的 `.blend` 文件,其几何体、材质、照明、相机和动态仍可用于下游编辑、重新模拟和重用。我们通过文本生成的动态场景生成,以及通过 BlenderBench[77](https://arxiv.org/html/2607.01766#bib.bib38)进行多步 Blender 编辑来评估 SimWorlds。与仅视觉的智能体基线相比,SimWorlds 在场景级正确性和物理完整性方面都有所提升,差距在复杂输入上急剧扩大:需要多个交互物体、长时间结构或复杂求解器配置的生成提示,以及跨多个物体或同时修改物理的编辑指令。我们的贡献是: - •我们提出了 SimWorlds,一个 LLM 智能体系统,将文本转化为可编辑的 4D Blender 项目:几何体、材质、照明、相机、动画和物理,全部可控。 - •我们构建了一个可控、基于物理的生成管道,结合了场景协议和确定性验证器、基于渲染的审查以及一套引擎级工具。 - •我们引入了 4DBuildBench,包含 50 个场景,覆盖五个求解器类别(布料、流体、刚体、粒子、软体)和三个难度级别,外加一个静态类别,并配备双轨评估:一个确定性引擎状态审计用于机制正确性,一个分项 VLM 判断器用于评估提示内容是否在视觉上得以呈现。 ## 2 相关工作 #### 代码驱动与程序化 3D 场景生成。 一条不断发展的研究方向将 Blender 视为 LLM 智能体合成场景构建代码的运行时环境。SceneCraft[29](https://arxiv.org/html/2607.01766#bib.bib36)] 和 3D-GPT[59](https://arxiv.org/html/2607.01766#bib.bib37)] 将文本翻译为通过关系场景图协调的 Blender 脚本。BlenderAlchemy[30](https://arxiv.org/html/2607.01766#bib.bib39)] 在 VLM 反馈下迭代优化材质。LL3M[42](https://arxiv.org/html/2607.01766#bib.bib66)] 在 BlenderRAG 知识库上组合规划器、检索和编码器智能体,并以高质量报告对象级结果。另一条互补的研究路线完全绕过了学习生成:诸如 Infinigen[50](https://arxiv.org/html/2607.01766#bib.bib63)] 的程序化管道手工制作 Blender 渲染的自然场景生成器,而 ProcTHOR[14](https://arxiv.org/html/2607.01766#bib.bib25), [19](https://arxiv.org/html/2607.01766#bib.bib73), [37](https://arxiv.org/html/2607.01766#bib.bib74)] 程序化地合成室内环境供具身智能体使用。布局生成方法从文本、场景图或部分上下文预测物体放置[47](https://arxiv.org/html/2607.01766#bib.bib34), [15](https://arxiv.org/html/2607.01766#bib.bib33), [16](https://arxiv.org/html/2607.01766#bib.bib23), [36](https://arxiv.org/html/2607.01766#bib.bib24), [45](https://arxiv.org/html/2607.01766#bib.bib32), [60](https://arxiv.org/html/2607.01766#bib.bib35)],通常从大型资产库中检索家具[13](https://arxiv.org/html/2607.01766#bib.bib20), [12](https://arxiv.org/html/2607.01766#bib.bib21)]。这些系统共享我们的 artifact 目标(一个可编辑的、代码定义的 Blender 文件),但它们的 headline 结果针对静态对象或单房间布局;动态领域(其中运动和物理是一级输出)尚未从文本端到端地得到证明。 #### 渲染检查循环与编辑基准。 另一条平行的工作流程通过渲染进行中的场景并让 VLM 识别差异来闭合验证循环。VIGA[77](https://arxiv.org/html/2607.01766#bib.bib38)] 将其形式化为代码-渲染-检查循环,并且是与我们系统最接近的已发表作品;它条件于目标的参考图像,并仅通过定性图表报告 4D 模式。除了其系统,VIGA 还引入了 BlenderBench,一个包含 27 个任务的开放式编辑套件,涵盖空间调整、渐进式编辑和组合生成,现有的单次基线仍远低于人类表现。另一项独立工作 BlenderGym[22](https://arxiv.org/html/2607.01766#bib.bib65)] 贡献了 245 个手工制作的编辑任务,并明确识别了一类未被其自身光度学和 CLIP 指标捕获的失败:通过错误机制匹配目标像素的场景。SimWorlds 保留了迭代验证设计,但使用渲染预览和从引擎本身读取的机制级别信号(烘焙状态、修改器堆栈、fcurves、运动增量)来驱动,并将循环扩展到纯文本 4D 生成。我们的编辑模式在 BlenderBench 上无修改运行,从而能够与其推出的基准上的 VIGA 进行直接比较。 #### 神经文本到3D与文本到4D。 另一个范式将 3D 和 4D 内容生成为神经表示,而不是图形引擎代码。对象级方法将 2D 先验蒸馏到 NeRF 或 3D Gaussian[48](https://arxiv.org/html/2607.01766#bib.bib6), [35](https://arxiv.org/html/2607.01766#bib.bib7), [9](https://arxiv.org/html/2607.01766#bib.bib8), [67](https://arxiv.org/html/2607.01766#bib.bib9), [27](https://arxiv.org/html/2607.01766#bib.bib10), [61](https://arxiv.org/html/2607.01766#bib.bib12), [73](https://arxiv.org/html/2607.01766#bib.bib11), [32](https://arxiv.org/html/2607.01766#bib.bib19), [62](https://arxiv.org/html/2607.01766#bib.bib13), [76](https://arxiv.org/html/2607.01766#bib.bib15), [10](https://arxiv.org/html/2607.01766#bib.bib14), [18](https://arxiv.org/html/2607.01766#bib.bib27)],其中多视图和图像条件变体解决了类似 Janus 的不一致性[39](https://arxiv.org/html/2607.01766#bib.bib17), [55](https://arxiv.org/html/2607.01766#bib.bib16), [41](https://arxiv.org/html/2607.01766#bib.bib18)]。场景级优化将其扩展到布局、房间和画廊环境[11](https://arxiv.org/html/2607.01766#bib.bib31), [78](https://arxiv.org/html/2607.01766#bib.bib26), [25](https://arxiv.org/html/2607.01766#bib.bib29), [17](https://arxiv.org/html/2607.01766#bib.bib30), [83](https://arxiv.org/html/2607.01766#bib.bib28), [33](https://arxiv.org/html/2607.01766#bib.bib64)]。4D 变体使用视频先验动画化表示[58](https://arxiv.org/html/2607.01766#bib.bib52), [3](https://arxiv.org/html/2607.01766#bib.bib53), [51](https://arxiv.org/html/2607.01766#bib.bib54), [72](https://arxiv.org/html/2607.01766#bib.bib56), [52](https://arxiv.org/html/2607.01766#bib.bib57), [4](https://arxiv.org/html/2607.01766#bib.bib55), [34](https://arxiv.org/html/2607.01766#bib.bib59), [71](https://arxiv.org/html/2607.01766#bib.bib58), [65](https://arxiv.org/html/2607.01766#bib.bib79)],这些视频先验本身来自文本到图像和文本到视频扩散[53](https://arxiv.org/html/2607.01766#bib.bib1), [24](https://arxiv.org/html/2607.01766#bib.bib2), [6](https://arxiv.org/html/2607.01766#bib.bib5), [57](https://arxiv.org/html/2607.01766#bib.bib3), [7](https://arxiv.org/html/2607.01766#bib.bib4), [40](https://arxiv.org/html/2607.01766#bib.bib76), [63](https://arxiv.org/html/2607.01766#bib.bib75)]。物理感知方法将材料参数附加到现有场[79](https://arxiv.org/html/2607.01766#bib.bib60), [70](https://arxiv.org/html/2607.01766#bib.bib61)],而系统识别方法通过可微分模拟或学习的神经本构模型从视频中恢复每个物体的物理参数[38](https://arxiv.org/html/2607.01766#bib.bib78), [80](https://arxiv.org/html/2607.01766#bib.bib77)]。这种输出在视觉上引人注目,但不是我们的目标工件:它无法在 Blender 中打开、重新模拟或与下游工具组合,其运动是学习得到的而非解决得到的。Kubric[21](https://arxiv.org/html/2607.01766#bib.bib62)] 渲染程序化 Blender 物理,但通过代码而非自然语言配置;这些方法都不产生我们系统所针对的 Blender 中可编辑、物理驱动的场景。 #### LLM 智能体与长时域执行。 在图形学之外,一条平行的工作线研究是什么使 LLM 智能体在长时域任务上可靠。ReAct[75](https://arxiv.org/html/2607.01766#bib.bib50)] 和 Reflexion[56](https://arxiv.org/html/2607.01766#bib.bib45)] 交替推理与环境反馈;Self-Refine[43](https://arxiv.org/html/2607.01766#bib.bib44)] 形式化了迭代修正,而 Huang 等人 [31](https://arxiv.org/html/2607.01766#bib.bib47)] 警告 LLM 在没有外部基础的情况下无法可靠地自我修正;Voyager[64](https://arxiv.org/html/2607.01766#bib.bib49)]、Toolformer[54](https://arxiv.org/html/2607.01766#bib.bib51)]、CRITIC[20](https://arxiv.org/html/2607.01766#bib.bib46)] 和 CodeAct[66](https://arxiv.org/html/2607.01766#bib.bib48)] 将批判和行动扎根于工具调用和代码;AutoGen[69](https://arxiv.org/html/2607.01766#bib.bib42)]、MetaGPT[26](https://arxiv.org/html/2607.01766#bib.bib40)] 和 ChatDev[49](https://arxiv.org/html/2607.01766#bib.bib41)] 将任务分解到角色专用智能体之间。最近的视角将承载组件具体化为上下文工程[1](https://arxiv.org/html/2607.01766#bib.bib67), [44](https://arxiv.org/html/2607.01766#bib.bib69)]、工具设计[2](https://arxiv.org/html/2607.01766#bib.bib68)] 和基于规划的执行[68](https://arxiv.org/html/2607.01766#bib.bib70), [46](https://arxiv.org/html/2607.01766#bib.bib43)]。SimWorlds 将这些作为其主干;贡献不在于原则,而在于它们在 Blender 中针对 4D 场景生成的实例化:上下文限定于类型化阶段、读取运行时状态以及预览的工具,以及一个其物理承诺在每一步后都与引擎协调的规划。 ## 3 方法 SimWorlds 围绕一个核心理念组织:正确的渲染并不能保证正确构建的场景,因此每个构建步骤都根据 Blender 的引擎状态而非其渲染图像进行验证,并且场景通过一个固定、可检查的阶段序列进行组装,以便结构
相似文章
SimWorld Studio:利用进化型代码代理为具身智能体学习自动生成环境
SimWorld Studio 是一个开源平台,利用进化型代码代理自动生成并优化用于具身智能体学习的 3D 环境。它利用自我进化和协同进化机制创建自适应训练场景,显著提升了智能体的性能。
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
SceneCode:用于可编辑室内场景(含铰接物体)的可执行世界程序
SceneCode 将自然语言提示转化为可执行代码,生成可交互、可用于仿真的室内场景(含铰接物体),实现细粒度的可控性与按需资产创建。
WorldAct: 将单体3D世界激活为可交互的以对象为中心的场景
WorldAct是一个框架,利用多模态智能体和几何重建技术,将静态的3D生成环境转换为可编辑、可交互的以对象为中心的场景,支持对象级编辑和具身任务执行。
MultiWorld:可扩展的多智能体多视角视频世界模型
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。