Blender思维：基于视觉语言模型的分阶段可执行逆图形

Hugging Face Daily Papers 2026/06/01 00:00 论文

摘要

本文介绍了SEIG，这是一个利用预训练视觉语言模型从单张图像重建3D场景的框架，通过逐步细化几何、材质、构图和光照，将场景重建为可编辑的Blender程序。

逆图形是一个长期存在的、高度欠约束的问题，旨在将图像重建为可编辑的3D场景，这些场景可以渲染、重新照明和操作。在这项工作中，我们研究了预训练的视觉语言模型（VLM）是否能够直接从单张图像执行可执行逆图形，通过将场景重建为可编辑的Blender程序，而不依赖于专门的2D或3D基础模型、可微渲染或多视角监督。我们引入了分阶段可执行逆图形（SEIG），这是一个智能体框架，通过逐步细化场景因素（包括几何、材质、构图和光照）直接在可执行的Blender代码空间中从单张图像重建3D场景。我们使用一系列重建指标（涵盖像素级、感知和语义保真度）在各种场景上评估了我们的框架。我们的实验表明，分阶段重建显著提高了重建保真度，突出了任务分解对使用通用VLM进行可执行逆图形的重要性。最后，我们展示了重建的可编辑Blender场景所支持的各种下游应用。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - 在 Blender 中思考：利用视觉-语言模型的分阶段可执行逆图形

来源：https://huggingface.co/papers/2606.02580

摘要

预训练的视觉-语言模型能够通过渐进式细化，从单张图像将 3D 场景重建为可编辑的 Blender 程序，并通过分阶段重建方法展现出更高的保真度。

逆图形学（https://huggingface.co/papers?q=Inverse+graphics）是一个长期存在且高度欠约束的问题，旨在将图像重建为可编辑的 3D 场景，以便进行渲染、重新照明和操作。在这项工作中，我们研究了预训练视觉-语言模型（https://huggingface.co/papers?q=vision-language+models）（VLM）是否能够直接从单张图像执行可执行逆图形学（https://huggingface.co/papers?q=executable+inverse+graphics），通过将场景重建为可编辑的 Blender 程序（https://huggingface.co/papers?q=Blender+program），而无需依赖专门的 2D 或 3D 基础模型、可微渲染或多视图监督。我们引入了分阶段可执行逆图形学（https://huggingface.co/papers?q=Executable+Inverse+Graphics）（SEIG），这是一个智能体框架，通过在可执行的 Blender 代码空间中渐进式地细化场景因子（https://huggingface.co/papers?q=scene+factors），包括几何（https://huggingface.co/papers?q=geometry）、材质（https://huggingface.co/papers?q=materials）、组合（https://huggingface.co/papers?q=composition）和光照（https://huggingface.co/papers?q=lighting），从单张图像重建 3D 场景。我们使用一系列涵盖像素级、感知和语义保真度的重建指标，在不同场景下评估了我们的框架。实验表明，分阶段重建（https://huggingface.co/papers?q=staged+reconstruction）显著提高了重建保真度，突显了任务分解（https://huggingface.co/papers?q=task+decomposition）对于使用通用 VLM 执行可执行逆图形学（https://huggingface.co/papers?q=executable+inverse+graphics）的重要性。最后，我们展示了由重建的可编辑 Blender 场景所支持的各种下游应用。

查看 arXiv 页面（https://arxiv.org/abs/2606.02580）查看 PDF（https://arxiv.org/pdf/2606.02580）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.02580）

在您的智能体中获取此论文：

hf papers read 2606.02580

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.02580 以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

Blender思维：基于视觉语言模型的分阶段可执行逆图形

论文页面 - 在 Blender 中思考：利用视觉-语言模型的分阶段可执行逆图形

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

图像即句子：扩展交错指令以实现统一的视觉生成

超越3D VQA：将3D空间先验注入视觉语言模型以增强几何推理

VGGT-Edit: 基于残差场预测的前馈原生3D场景编辑

Stateful Visual Encoders for Vision-Language Models

SceneCode：用于可编辑室内场景（含铰接物体）的可执行世界程序

提交意见反馈