Code-as-Room:通过代理代码合成从俯视图图像生成3D房间

Hugging Face Daily Papers 论文

摘要

一种名为Code-as-Room的新型基于MLLM的代理框架,通过将俯视图图像转换为可执行的Blender代码,利用带有跨阶段记忆的结构化执行引擎来维持上下文,从而生成3D室内房间。

设计逼真且功能性的3D室内房间对于室内设计、虚拟现实、游戏和具身AI等多种应用至关重要。虽然最近基于MLLM的方法在从文本描述或参考图像生成3D房间方面显示出巨大潜力,但基于文本的方法难以捕捉精确的空间信息,而现有的图像条件代理在从俯视图进行整体房间生成时存在不稳定和无限循环的问题。为了解决这些限制,我们提出了Code-as-Room,一个配备结构化执行引擎的基于MLLM的代理框架,该框架使用Blender代码表示3D房间。给定一张俯视图房间图像,该框架解析参考图像以提取场景元素及其空间关系,并通过原则性的多阶段流程合成可执行的Blender代码,包括几何、材质和光照。在整个过程中维护一个跨阶段记忆模块,以减轻现有基于代理的框架固有的上下文遗忘问题。我们还引入了一个专门用于基于代码的3D房间合成的基准测试,涵盖了多种评估协议。基于我们的基准测试,与现有基于代理的方法进行了全面比较,以验证我们提出的执行引擎的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - Code-as-Room: 通过智能体代码合成从俯视图图像生成3D房间

来源:https://huggingface.co/papers/2605.18451

摘要

一种基于MLLM的新型智能体框架Code-as-Room,通过结构化执行框架并配备跨阶段记忆以保持上下文,将俯视图图像转换为可执行的Blender代码,从而生成3D室内房间。

设计真实且功能完备的3D室内房间对于室内设计、虚拟现实、游戏和具身AI等广泛应用至关重要。虽然近期基于MLLM的方法在从文本描述或参考图像进行3D房间合成(https://huggingface.co/papers?q=3D%20room%20synthesis)方面展现出巨大潜力,但基于文本的方法难以捕捉精确的空间信息,而现有的图像条件智能体在执行从俯视图(https://huggingface.co/papers?q=top-down%20views)进行整体房间生成的任务时,存在不稳定和无限循环的问题。为解决这些局限,我们提出Code-as-Room,一种配备结构化执行框架(https://huggingface.co/papers?q=structured%20execution%20harness)的基于MLLM的智能体框架(https://huggingface.co/papers?q=MLLM-based%20agentic%20framework),该框架使用Blender代码(https://huggingface.co/papers?q=Blender%20codes)表示3D房间。给定一张俯视图房间图像,该框架解析参考图像以提取场景元素(https://huggingface.co/papers?q=scene%20elements)及其空间关系(https://huggingface.co/papers?q=spatial%20relationships),并通过一个原则性的多阶段流水线(https://huggingface.co/papers?q=multi-stage%20pipeline)合成可执行的Blender代码,涵盖几何、材质和光照。整个过程中维护一个跨阶段记忆(https://huggingface.co/papers?q=cross-stage%20memory)模块,以缓解现有智能体框架固有的上下文遗忘问题。我们进一步引入了一个专为基于代码的3D房间合成(https://huggingface.co/papers?q=3D%20room%20synthesis)设计的基准测试,包含多种评估协议。基于该基准测试,我们与现有基于智能体的方法进行了全面比较,以验证所提执行框架的有效性。

查看arXiv页面(https://arxiv.org/abs/2605.18451)查看PDF(https://arxiv.org/pdf/2605.18451)项目页面(https://code-as-room.github.io/)GitHub(https://github.com/YxuanAr/Code-as-Room)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18451)

在您的智能体中获取此论文:

hf papers read 2605.18451

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.18451以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.18451以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.18451以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

我构建了一个工具,可以生成由独立逻辑部件组装的3D对象(例如,视频中生成的微波炉具有完整的内部组件和一扇可开关的门)

Reddit r/artificial

一款名为Nova3D的新型开源工具利用大语言模型(LLM)生成具有独立逻辑部件的3D对象(例如,带有内部组件和可开关门的微波炉),不同于传统的整体式AI生成器。它通过编写Blender Python代码,创建干净、模块化的GLB导出文件,适用于动画和编辑。

编码代理作为世界模拟器表现良好

arXiv cs.AI

本文提出了一种基于代理的框架,利用编码代理从自然语言提示生成物理上可信的世界模拟,在物理准确性和指令保真度方面优于基于视频的模型。