Blender思维:基于视觉语言模型的分阶段可执行逆图形

Hugging Face Daily Papers 论文

摘要

本文介绍了SEIG,这是一个利用预训练视觉语言模型从单张图像重建3D场景的框架,通过逐步细化几何、材质、构图和光照,将场景重建为可编辑的Blender程序。

逆图形是一个长期存在的、高度欠约束的问题,旨在将图像重建为可编辑的3D场景,这些场景可以渲染、重新照明和操作。在这项工作中,我们研究了预训练的视觉语言模型(VLM)是否能够直接从单张图像执行可执行逆图形,通过将场景重建为可编辑的Blender程序,而不依赖于专门的2D或3D基础模型、可微渲染或多视角监督。我们引入了分阶段可执行逆图形(SEIG),这是一个智能体框架,通过逐步细化场景因素(包括几何、材质、构图和光照)直接在可执行的Blender代码空间中从单张图像重建3D场景。我们使用一系列重建指标(涵盖像素级、感知和语义保真度)在各种场景上评估了我们的框架。我们的实验表明,分阶段重建显著提高了重建保真度,突出了任务分解对使用通用VLM进行可执行逆图形的重要性。最后,我们展示了重建的可编辑Blender场景所支持的各种下游应用。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - 在 Blender 中思考:利用视觉-语言模型的分阶段可执行逆图形

来源:https://huggingface.co/papers/2606.02580

摘要

预训练的视觉-语言模型能够通过渐进式细化,从单张图像将 3D 场景重建为可编辑的 Blender 程序,并通过分阶段重建方法展现出更高的保真度。

逆图形学(https://huggingface.co/papers?q=Inverse+graphics)是一个长期存在且高度欠约束的问题,旨在将图像重建为可编辑的 3D 场景,以便进行渲染、重新照明和操作。在这项工作中,我们研究了预训练视觉-语言模型(https://huggingface.co/papers?q=vision-language+models)(VLM)是否能够直接从单张图像执行可执行逆图形学(https://huggingface.co/papers?q=executable+inverse+graphics),通过将场景重建为可编辑的 Blender 程序(https://huggingface.co/papers?q=Blender+program),而无需依赖专门的 2D 或 3D 基础模型、可微渲染或多视图监督。我们引入了分阶段可执行逆图形学(https://huggingface.co/papers?q=Executable+Inverse+Graphics)(SEIG),这是一个智能体框架,通过在可执行的 Blender 代码空间中渐进式地细化场景因子(https://huggingface.co/papers?q=scene+factors),包括几何(https://huggingface.co/papers?q=geometry)、材质(https://huggingface.co/papers?q=materials)、组合(https://huggingface.co/papers?q=composition)和光照(https://huggingface.co/papers?q=lighting),从单张图像重建 3D 场景。我们使用一系列涵盖像素级、感知和语义保真度的重建指标,在不同场景下评估了我们的框架。实验表明,分阶段重建(https://huggingface.co/papers?q=staged+reconstruction)显著提高了重建保真度,突显了任务分解(https://huggingface.co/papers?q=task+decomposition)对于使用通用 VLM 执行可执行逆图形学(https://huggingface.co/papers?q=executable+inverse+graphics)的重要性。最后,我们展示了由重建的可编辑 Blender 场景所支持的各种下游应用。

查看 arXiv 页面(https://arxiv.org/abs/2606.02580)查看 PDF(https://arxiv.org/pdf/2606.02580)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02580)

在您的智能体中获取此论文:

hf papers read 2606.02580

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

Stateful Visual Encoders for Vision-Language Models

Hugging Face Daily Papers

本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。