SceneCode:用于可编辑室内场景(含铰接物体)的可执行世界程序
摘要
SceneCode 将自然语言提示转化为可执行代码,生成可交互、可用于仿真的室内场景(含铰接物体),实现细粒度的可控性与按需资产创建。
查看缓存全文
缓存时间: 2026/05/20 02:35
Paper page - SceneCode:用于可编辑室内场景(含铰接物体)的可执行世界程序
来源:https://huggingface.co/papers/2605.19587
摘要
SceneCode 通过将自然语言提示转换为可执行代码,实现可编程的室内场景生成,从而生成带有结构化物体表示的交互式、可仿真环境。
室内场景合成支撑着具身AI、机器人操作和基于仿真的策略评估。在这些场景中,一个有用的场景不仅需要指定环境的外观,还需明确其物体的结构方式。然而,现有管线通常将生成内容表示为静态网格,并仅从精选资产库继承铰接信息,这限制了物体级别的可控性,并阻碍了按需生成新的可交互资产。为解决这一差距,我们将物理可交互的室内场景合成形式化为程序化世界生成,并提出 SceneCode 框架,该框架将自然语言提示编译为可执行、由代码驱动的室内世界,而非一组不透明的网格。一个房间级别的智能体主干首先将提示转换为结构化的房屋布局,并通过规划-设计-评审循环发出每个物体的 AssetRequest。每个请求随后被路由至五种代码生成策略之一,并转换为合成的部件级 Blender Python 程序,这些程序通过执行引导的修复-优化循环进行验证。最终的程序被编译成可直接用于仿真的资产,并导出为 SDF 格式用于物理仿真。一个持久化的场景状态注册表连接物体请求、可执行程序、渲染几何体和仿真资产,将场景组装转变为可追踪、可局部编辑的世界构建过程。我们通过场景级合成、物体级资产质量、人工评估以及下游机器人交互来评估 SceneCode。结果表明,可执行世界程序改善了语义贴合提示的室内场景生成,并生成具有更清晰网格结构和仿真器可加载铰接元数据的资产。项目页面:https://scene-code.github.io/。
查看 arXiv 页面 (https://arxiv.org/abs/2605.19587)查看 PDF (https://arxiv.org/pdf/2605.19587)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19587)
在你的 Agent 中获取此论文:
hf papers read 2605\.19587
没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2605.19587 以在此页面上显示链接。
引用此论文的数据集0
没有数据集引用此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.19587 以在此页面上显示链接。
引用此论文的 Spaces0
没有 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2605.19587 以在此页面上显示链接。
包含此论文的收藏夹0
没有收藏夹包含此论文
将此论文添加到收藏夹 (https://huggingface.co/new-collection)以在此页面上显示链接。
相似文章
WorldAct: 将单体3D世界激活为可交互的以对象为中心的场景
WorldAct是一个框架,利用多模态智能体和几何重建技术,将静态的3D生成环境转换为可编辑、可交互的以对象为中心的场景,支持对象级编辑和具身任务执行。
SimWorld Studio:利用进化型代码代理为具身智能体学习自动生成环境
SimWorld Studio 是一个开源平台,利用进化型代码代理自动生成并优化用于具身智能体学习的 3D 环境。它利用自我进化和协同进化机制创建自适应训练场景,显著提升了智能体的性能。
编码代理作为世界模拟器表现良好
本文提出了一种基于代理的框架,利用编码代理从自然语言提示生成物理上可信的世界模拟,在物理准确性和指令保真度方面优于基于视频的模型。
Code-as-Room:通过代理代码合成从俯视图图像生成3D房间
一种名为Code-as-Room的新型基于MLLM的代理框架,通过将俯视图图像转换为可执行的Blender代码,利用带有跨阶段记忆的结构化执行引擎来维持上下文,从而生成3D室内房间。
Blender思维:基于视觉语言模型的分阶段可执行逆图形
本文介绍了SEIG,这是一个利用预训练视觉语言模型从单张图像重建3D场景的框架,通过逐步细化几何、材质、构图和光照,将场景重建为可编辑的Blender程序。