超越提示:面向分布外形状的无条件三维反演

Hugging Face Daily Papers 论文

摘要

本文识别并解决了文本到三维生成模型中的“潜在汇陷阱”问题,即模型对文本提示变得不敏感。我们提出了一个框架,将几何表示与语言敏感性解耦,从而实现对分布外形状的稳健文本驱动三维形状编辑。

文本驱动的生成模型反演是操控二维或三维内容的核心范式,可实现文本编辑、风格迁移或逆问题等多种应用。然而,它依赖于生成模型对自然语言提示保持敏感这一假设。我们证明,对于最先进的原生文本到三维生成模型,该假设常常失效。我们识别出一个关键失败模式:生成轨迹被拉入潜在的“汇陷阱”区域,在该区域模型对提示修改不再敏感。在这些区域中,输入文本的变化无法以改变输出几何的方式改变内部表示。至关重要的是,我们观察到这并非模型几何表达能力的限制;相同的生成模型具备产生大量多样化形状的能力,但正如我们所示,它们对分布外文本指导变得不敏感。我们通过分析生成模型的采样轨迹来研究该行为,发现利用模型的无条件生成先验仍然可以表示和生成复杂几何。这导致了一个更稳健的文本驱动三维形状编辑框架,通过将模型的几何表示能力与其语言敏感性解耦,绕过了潜在汇陷阱。我们的方法解决了当前三维管线的局限性,并实现了对分布外三维形状的高保真语义操控。项目网页:https://daidedou.sorpi.fr/publication/beyondprompts
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

来源: https://huggingface.co/papers/2604.14914

摘要

当前最先进的文本到 3D 生成模型存在潜在陷阱(latent sink traps),导致其对文本提示失去敏感性;而一个稳健的框架可以通过将几何表示与语言敏感性解耦来克服这一问题。

文本驱动的生成模型反演是操控 2D 或 3D 内容的核心范式,它解锁了诸如基于文本的编辑、风格迁移或逆问题等众多应用。然而,这一范式依赖于一个假设:生成模型仍对自然语言提示保持敏感。我们证明,对于最先进的原生文本到 3D 生成模型(https://huggingface.co/papers?q=text-to-3D%20generative%20models),这个假设往往不成立。我们识别出一个关键的失败模式:生成轨迹被拉入潜在的“陷阱区”(sink traps)——模型对提示修改(https://huggingface.co/papers?q=prompt%20modifications)不再敏感的区域。在这些状态下,输入文本的改变无法改变内部表征,进而无法改变输出的几何形状。重要的是,我们观察到这并非模型几何表达能力的问题;相同的生成模型有能力产生极其多样的形状,但正如我们所示,它们对分布外文本引导(https://huggingface.co/papers?q=out-of-distribution%20text%20guidance)变得不敏感。我们通过分析生成模型的采样轨迹来研究这一行为,并发现利用模型的无条件生成先验(https://huggingface.co/papers?q=generative%20prior)仍然可以表示和生成复杂几何形状。这导致了一个更稳健的基于文本的 3D 形状编辑框架,该框架通过解耦模型的几何表示(https://huggingface.co/papers?q=geometric%20representation)能力与其语言敏感性(https://huggingface.co/papers?q=linguistic%20sensitivity)来绕过潜在陷阱。我们的方法解决了当前 3D 管线的局限性,并实现了对分布外 3D 形状的高保真语义操作(https://huggingface.co/papers?q=semantic%20manipulation)。项目网页:https://daidedou.sorpi.fr/publication/beyondprompts

查看 arXiv 页面 (https://arxiv.org/abs/2604.14914)查看 PDF (https://arxiv.org/pdf/2604.14914)项目页面 (https://daidedou.sorpi.fr/publication/beyondprompts)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14914)

在你的 agent 中获取这篇论文:

hf papers read 2604.14914

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

尚无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2604.14914 以在此页面显示链接。

引用本论文的数据集 0

尚无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.14914 以在此页面显示链接。

引用本论文的 Spaces 0

尚无 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2604.14914 以在此页面显示链接。

包含本论文的收藏集 0

尚无收藏集包含本论文

请将本论文添加至收藏集 (https://huggingface.co/new-collection) 以在此页面显示链接。

相似文章

Point-E:从复杂文本提示生成3D点云的系统

OpenAI Blog

OpenAI推出Point-E,一个通过结合文本到图像和图像到3D的扩散模型,能在单个GPU上在1-2分钟内从文本提示生成3D点云的系统。该方法相比现有方法实现了显著的速度提升,同时发布了预训练模型和代码。

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。

将3D生成模型用于自回归布局生成

Hugging Face Daily Papers

LaviGen是一个框架,它重用3D生成模型进行自回归3D布局生成,使用改进的3D扩散模型和dual-guidance self-rollout蒸馏机制,在LayoutVLM基准上实现了比最先进方法高19%的物理合理性和快65%的计算速度。

从生成视角探索空间智能

Hugging Face Daily Papers

研究者推出首个量化多模态模型生成式空间智能的基准 GSI-Bench,通过在图像生成过程中评估 3D 空间约束遵守情况来衡量能力。在合成数据集上微调可显著提升空间编辑保真度与下游空间理解,证明生成式训练能增强空间推理。