Semantic Browsing: 图像生成中的可控多样性

Hugging Face Daily Papers 2026/06/22 00:00 论文

摘要

Semantic Browsing 引入了一种方法，通过使用一个 Vision Language Model 和代理工作流，在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。

现代文本到图像模型在视觉保真度和提示遵循方面表现出色。然而，这种严格的遵循是以牺牲多样性为代价的：生成的样本往往坍缩为单一的视觉解释。现有的改进多样性的方法产生的输出是由偶然变化驱动的，而非有意义的设计选择。这激发了一个新的多样性任务变体，即对生成的样本施加结构化约束。我们引入了一种可控多样性的方法，使得 Semantic Browsing 成为可能，用户可以在结构化的图像画廊中导航，并通过系统遍历有意义、可解释的变化轴来体验创造性探索。实现这种程度的语义控制需要对场景有深入理解。我们利用了近期文本到图像模型在详细描述上训练的事实，有效地将语义决策与像素生成解耦。这实现了一种范式转变：我们不再依赖文本到图像模型内的随机变化，而是直接在文本层面诱导多样性。通过利用丰富的文本表示，我们允许一个 Vision Language Model (VLM) 在完整的场景上下文中操作。为了克服标准 VLM 常见的通用输出，我们采用了一个代理工作流，明确强制实施与原始提示相适应的结构化变化。我们证明了我们的方法产生了多样且可导航的设计空间，其中每个变化都对应一个特定的、用户可理解的语义决策。

查看原文

查看缓存全文

缓存时间: 2026/06/24 13:48

论文页面 - Semantic Browsing：受控多样性的图像生成

来源：https://huggingface.co/papers/2606.23679

摘要

通过语义浏览能力，文本到图像模型增强了受控多样性，使用户能够基于有意义的语义决策对图像变化进行结构化导航。

现代文本到图像模型（https://huggingface.co/papers?q=text-to-image%20models）在视觉保真度（https://huggingface.co/papers?q=visual%20fidelity）和提示遵循（https://huggingface.co/papers?q=prompt%20adherence）方面表现出色。然而，这种严格的遵循以牺牲多样性为代价：生成的样本往往坍缩到单一视觉解释。现有的多样性改进方法产生的输出由偶然变化驱动，而非有意义的设计选择。这催生了一个新的多样性任务变体，要求对生成的样本施加结构。我们引入了一种受控多样性（https://huggingface.co/papers?q=controlled%20diversity）方法，实现了语义浏览（https://huggingface.co/papers?q=Semantic%20Browsing），用户可以在其中浏览结构化的图像画廊，并通过系统遍历有意义、可解释的变化轴来体验创意探索。达到这种语义控制水平需要对场景有深入理解。我们利用这样一个事实：最近的文本到图像模型（https://huggingface.co/papers?q=text-to-image%20models）是在详细描述上训练的，从而有效地将语义决策（https://huggingface.co/papers?q=semantic%20decision-making）与像素生成解耦。这带来了范式转变：我们不再依赖文本到图像模型内部的随机变化，而是直接在文本层面引入多样性。通过利用丰富的文本表示，我们允许视觉语言模型（https://huggingface.co/papers?q=Vision%20Language%20Model）（VLM）在完整的场景上下文（https://huggingface.co/papers?q=scene%20context）上操作。为了克服标准VLM典型输出的通用性，我们采用了一种代理工作流（https://huggingface.co/papers?q=agentic%20workflow），明确强制实施与原始提示相适应的结构化变化（https://huggingface.co/papers?q=structured%20variation）。我们证明，我们的方法产生了多样且可导航的设计空间，其中每个变化都对应一个特定的、用户可理解的语义决策。

查看 arXiv 页面（https://arxiv.org/abs/2606.23679）查看 PDF（https://arxiv.org/pdf/2606.23679）项目页面（https://saradorfman1.github.io/SemanticBrowsing-webpage/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.23679）

在您的代理中获取这篇论文：

hf papers read 2606\.23679

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.23679 以从本页面链接它。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.23679 以从本页面链接它。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.23679 以从本页面链接它。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到收藏集（https://huggingface.co/new-collection）以从本页面链接它。

Semantic Browsing: 图像生成中的可控多样性

论文页面 - Semantic Browsing：受控多样性的图像生成

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

统一多模态模型的语义生成微调

多样性注入的位置至关重要：面向多样化生成的统一框架

Semantic DLM+：通过转移核设计中的偏差-方差权衡改进扩散语言模型

自我演进的视觉提问器

面向主体驱动生成的多模态大语言模型能力挖掘

提交意见反馈