Blender思维:基于视觉语言模型的分阶段可执行逆图形
摘要
本文介绍了SEIG,这是一个利用预训练视觉语言模型从单张图像重建3D场景的框架,通过逐步细化几何、材质、构图和光照,将场景重建为可编辑的Blender程序。
查看缓存全文
缓存时间: 2026/06/02 15:37
论文页面 - 在 Blender 中思考:利用视觉-语言模型的分阶段可执行逆图形
来源:https://huggingface.co/papers/2606.02580
摘要
预训练的视觉-语言模型能够通过渐进式细化,从单张图像将 3D 场景重建为可编辑的 Blender 程序,并通过分阶段重建方法展现出更高的保真度。
逆图形学(https://huggingface.co/papers?q=Inverse+graphics)是一个长期存在且高度欠约束的问题,旨在将图像重建为可编辑的 3D 场景,以便进行渲染、重新照明和操作。在这项工作中,我们研究了预训练视觉-语言模型(https://huggingface.co/papers?q=vision-language+models)(VLM)是否能够直接从单张图像执行可执行逆图形学(https://huggingface.co/papers?q=executable+inverse+graphics),通过将场景重建为可编辑的 Blender 程序(https://huggingface.co/papers?q=Blender+program),而无需依赖专门的 2D 或 3D 基础模型、可微渲染或多视图监督。我们引入了分阶段可执行逆图形学(https://huggingface.co/papers?q=Executable+Inverse+Graphics)(SEIG),这是一个智能体框架,通过在可执行的 Blender 代码空间中渐进式地细化场景因子(https://huggingface.co/papers?q=scene+factors),包括几何(https://huggingface.co/papers?q=geometry)、材质(https://huggingface.co/papers?q=materials)、组合(https://huggingface.co/papers?q=composition)和光照(https://huggingface.co/papers?q=lighting),从单张图像重建 3D 场景。我们使用一系列涵盖像素级、感知和语义保真度的重建指标,在不同场景下评估了我们的框架。实验表明,分阶段重建(https://huggingface.co/papers?q=staged+reconstruction)显著提高了重建保真度,突显了任务分解(https://huggingface.co/papers?q=task+decomposition)对于使用通用 VLM 执行可执行逆图形学(https://huggingface.co/papers?q=executable+inverse+graphics)的重要性。最后,我们展示了由重建的可编辑 Blender 场景所支持的各种下游应用。
查看 arXiv 页面(https://arxiv.org/abs/2606.02580)查看 PDF(https://arxiv.org/pdf/2606.02580)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02580)
在您的智能体中获取此论文:
hf papers read 2606.02580
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。
引用此论文的 Space 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
图像即句子:扩展交错指令以实现统一的视觉生成
本文介绍了 INSET,这是一个统一的多模态模型,它将图像作为原生词汇嵌入到文本指令中,从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。
超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。
VGGT-Edit: 基于残差场预测的前馈原生3D场景编辑
VGGT-Edit 提出了一种基于深度同步文本注入和残差场预测的前馈框架,用于文本驱动的原生3D场景编辑,相较于2D提升方法,实现了更优的质量和效率。
Stateful Visual Encoders for Vision-Language Models
本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。
SceneCode:用于可编辑室内场景(含铰接物体)的可执行世界程序
SceneCode 将自然语言提示转化为可执行代码,生成可交互、可用于仿真的室内场景(含铰接物体),实现细粒度的可控性与按需资产创建。