超越提示：面向分布外形状的无条件三维反演

Hugging Face Daily Papers 2026/04/16 00:00 论文

3d-generation text-to-3d generative-models inversion shape-editing semantic-manipulation

摘要

本文识别并解决了文本到三维生成模型中的“潜在汇陷阱”问题，即模型对文本提示变得不敏感。我们提出了一个框架，将几何表示与语言敏感性解耦，从而实现对分布外形状的稳健文本驱动三维形状编辑。

文本驱动的生成模型反演是操控二维或三维内容的核心范式，可实现文本编辑、风格迁移或逆问题等多种应用。然而，它依赖于生成模型对自然语言提示保持敏感这一假设。我们证明，对于最先进的原生文本到三维生成模型，该假设常常失效。我们识别出一个关键失败模式：生成轨迹被拉入潜在的“汇陷阱”区域，在该区域模型对提示修改不再敏感。在这些区域中，输入文本的变化无法以改变输出几何的方式改变内部表示。至关重要的是，我们观察到这并非模型几何表达能力的限制；相同的生成模型具备产生大量多样化形状的能力，但正如我们所示，它们对分布外文本指导变得不敏感。我们通过分析生成模型的采样轨迹来研究该行为，发现利用模型的无条件生成先验仍然可以表示和生成复杂几何。这导致了一个更稳健的文本驱动三维形状编辑框架，通过将模型的几何表示能力与其语言敏感性解耦，绕过了潜在汇陷阱。我们的方法解决了当前三维管线的局限性，并实现了对分布外三维形状的高保真语义操控。项目网页：https://daidedou.sorpi.fr/publication/beyondprompts

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

来源: https://huggingface.co/papers/2604.14914

摘要

当前最先进的文本到 3D 生成模型存在潜在陷阱（latent sink traps），导致其对文本提示失去敏感性；而一个稳健的框架可以通过将几何表示与语言敏感性解耦来克服这一问题。

文本驱动的生成模型反演是操控 2D 或 3D 内容的核心范式，它解锁了诸如基于文本的编辑、风格迁移或逆问题等众多应用。然而，这一范式依赖于一个假设：生成模型仍对自然语言提示保持敏感。我们证明，对于最先进的原生文本到 3D 生成模型（https://huggingface.co/papers?q=text-to-3D%20generative%20models），这个假设往往不成立。我们识别出一个关键的失败模式：生成轨迹被拉入潜在的“陷阱区”（sink traps）——模型对提示修改（https://huggingface.co/papers?q=prompt%20modifications）不再敏感的区域。在这些状态下，输入文本的改变无法改变内部表征，进而无法改变输出的几何形状。重要的是，我们观察到这并非模型几何表达能力的问题；相同的生成模型有能力产生极其多样的形状，但正如我们所示，它们对分布外文本引导（https://huggingface.co/papers?q=out-of-distribution%20text%20guidance）变得不敏感。我们通过分析生成模型的采样轨迹来研究这一行为，并发现利用模型的无条件生成先验（https://huggingface.co/papers?q=generative%20prior）仍然可以表示和生成复杂几何形状。这导致了一个更稳健的基于文本的 3D 形状编辑框架，该框架通过解耦模型的几何表示（https://huggingface.co/papers?q=geometric%20representation）能力与其语言敏感性（https://huggingface.co/papers?q=linguistic%20sensitivity）来绕过潜在陷阱。我们的方法解决了当前 3D 管线的局限性，并实现了对分布外 3D 形状的高保真语义操作（https://huggingface.co/papers?q=semantic%20manipulation）。项目网页：https://daidedou.sorpi.fr/publication/beyondprompts

查看 arXiv 页面 (https://arxiv.org/abs/2604.14914)查看 PDF (https://arxiv.org/pdf/2604.14914)项目页面 (https://daidedou.sorpi.fr/publication/beyondprompts)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14914)

在你的 agent 中获取这篇论文：

hf papers read 2604.14914

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

尚无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2604.14914 以在此页面显示链接。

引用本论文的数据集 0

尚无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.14914 以在此页面显示链接。

引用本论文的 Spaces 0

尚无 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2604.14914 以在此页面显示链接。

包含本论文的收藏集 0

尚无收藏集包含本论文

请将本论文添加至收藏集 (https://huggingface.co/new-collection) 以在此页面显示链接。

超越提示：面向分布外形状的无条件三维反演

论文页面 - Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Spaces 0

包含本论文的收藏集 0

相似文章

Point-E：从复杂文本提示生成3D点云的系统

使用CLIP潜在表示的分层文本条件图像生成

将3D生成模型用于自回归布局生成

通过判别式文本表征将一步图像生成从类别标签扩展到文本

从生成视角探索空间智能

提交意见反馈