Code-as-Room:通过代理代码合成从俯视图图像生成3D房间
摘要
一种名为Code-as-Room的新型基于MLLM的代理框架,通过将俯视图图像转换为可执行的Blender代码,利用带有跨阶段记忆的结构化执行引擎来维持上下文,从而生成3D室内房间。
查看缓存全文
缓存时间: 2026/05/19 06:30
论文页面 - Code-as-Room: 通过智能体代码合成从俯视图图像生成3D房间
来源:https://huggingface.co/papers/2605.18451
摘要
一种基于MLLM的新型智能体框架Code-as-Room,通过结构化执行框架并配备跨阶段记忆以保持上下文,将俯视图图像转换为可执行的Blender代码,从而生成3D室内房间。
设计真实且功能完备的3D室内房间对于室内设计、虚拟现实、游戏和具身AI等广泛应用至关重要。虽然近期基于MLLM的方法在从文本描述或参考图像进行3D房间合成(https://huggingface.co/papers?q=3D%20room%20synthesis)方面展现出巨大潜力,但基于文本的方法难以捕捉精确的空间信息,而现有的图像条件智能体在执行从俯视图(https://huggingface.co/papers?q=top-down%20views)进行整体房间生成的任务时,存在不稳定和无限循环的问题。为解决这些局限,我们提出Code-as-Room,一种配备结构化执行框架(https://huggingface.co/papers?q=structured%20execution%20harness)的基于MLLM的智能体框架(https://huggingface.co/papers?q=MLLM-based%20agentic%20framework),该框架使用Blender代码(https://huggingface.co/papers?q=Blender%20codes)表示3D房间。给定一张俯视图房间图像,该框架解析参考图像以提取场景元素(https://huggingface.co/papers?q=scene%20elements)及其空间关系(https://huggingface.co/papers?q=spatial%20relationships),并通过一个原则性的多阶段流水线(https://huggingface.co/papers?q=multi-stage%20pipeline)合成可执行的Blender代码,涵盖几何、材质和光照。整个过程中维护一个跨阶段记忆(https://huggingface.co/papers?q=cross-stage%20memory)模块,以缓解现有智能体框架固有的上下文遗忘问题。我们进一步引入了一个专为基于代码的3D房间合成(https://huggingface.co/papers?q=3D%20room%20synthesis)设计的基准测试,包含多种评估协议。基于该基准测试,我们与现有基于智能体的方法进行了全面比较,以验证所提执行框架的有效性。
查看arXiv页面(https://arxiv.org/abs/2605.18451)查看PDF(https://arxiv.org/pdf/2605.18451)项目页面(https://code-as-room.github.io/)GitHub(https://github.com/YxuanAr/Code-as-Room)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18451)
在您的智能体中获取此论文:
hf papers read 2605.18451
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.18451以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.18451以从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.18451以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
SceneCode:用于可编辑室内场景(含铰接物体)的可执行世界程序
SceneCode 将自然语言提示转化为可执行代码,生成可交互、可用于仿真的室内场景(含铰接物体),实现细粒度的可控性与按需资产创建。
我构建了一个工具,可以生成由独立逻辑部件组装的3D对象(例如,视频中生成的微波炉具有完整的内部组件和一扇可开关的门)
一款名为Nova3D的新型开源工具利用大语言模型(LLM)生成具有独立逻辑部件的3D对象(例如,带有内部组件和可开关门的微波炉),不同于传统的整体式AI生成器。它通过编写Blender Python代码,创建干净、模块化的GLB导出文件,适用于动画和编辑。
编码代理作为世界模拟器表现良好
本文提出了一种基于代理的框架,利用编码代理从自然语言提示生成物理上可信的世界模拟,在物理准确性和指令保真度方面优于基于视频的模型。
3DCodeBench:通过代码对智能体过程化3D建模进行基准测试
本文介绍了3DCodeBench——一个用于评估视觉语言模型通过代码进行过程化3D建模的基准测试,以及3DCodeArena——一个基于成对人类偏好的排名平台。
我构建了一种新型AI工具;它能生成由各个组成部分构成的3D物体(而不是所有3D AI生成器所生成的单一实心块)。
一种新型AI工具通过生成代码来创建3D物体,从而得到具有独立功能部件的物体,而非单一实心块。该工具免费开源,托管于GitHub。