Semantic Browsing: 图像生成中的可控多样性
摘要
Semantic Browsing 引入了一种方法,通过使用一个 Vision Language Model 和代理工作流,在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。
查看缓存全文
缓存时间: 2026/06/24 13:48
论文页面 - Semantic Browsing:受控多样性的图像生成
来源:https://huggingface.co/papers/2606.23679
摘要
通过语义浏览能力,文本到图像模型增强了受控多样性,使用户能够基于有意义的语义决策对图像变化进行结构化导航。
现代文本到图像模型(https://huggingface.co/papers?q=text-to-image%20models)在视觉保真度(https://huggingface.co/papers?q=visual%20fidelity)和提示遵循(https://huggingface.co/papers?q=prompt%20adherence)方面表现出色。然而,这种严格的遵循以牺牲多样性为代价:生成的样本往往坍缩到单一视觉解释。现有的多样性改进方法产生的输出由偶然变化驱动,而非有意义的设计选择。这催生了一个新的多样性任务变体,要求对生成的样本施加结构。我们引入了一种受控多样性(https://huggingface.co/papers?q=controlled%20diversity)方法,实现了语义浏览(https://huggingface.co/papers?q=Semantic%20Browsing),用户可以在其中浏览结构化的图像画廊,并通过系统遍历有意义、可解释的变化轴来体验创意探索。达到这种语义控制水平需要对场景有深入理解。我们利用这样一个事实:最近的文本到图像模型(https://huggingface.co/papers?q=text-to-image%20models)是在详细描述上训练的,从而有效地将语义决策(https://huggingface.co/papers?q=semantic%20decision-making)与像素生成解耦。这带来了范式转变:我们不再依赖文本到图像模型内部的随机变化,而是直接在文本层面引入多样性。通过利用丰富的文本表示,我们允许视觉语言模型(https://huggingface.co/papers?q=Vision%20Language%20Model)(VLM)在完整的场景上下文(https://huggingface.co/papers?q=scene%20context)上操作。为了克服标准VLM典型输出的通用性,我们采用了一种代理工作流(https://huggingface.co/papers?q=agentic%20workflow),明确强制实施与原始提示相适应的结构化变化(https://huggingface.co/papers?q=structured%20variation)。我们证明,我们的方法产生了多样且可导航的设计空间,其中每个变化都对应一个特定的、用户可理解的语义决策。
查看 arXiv 页面(https://arxiv.org/abs/2606.23679)查看 PDF(https://arxiv.org/pdf/2606.23679)项目页面(https://saradorfman1.github.io/SemanticBrowsing-webpage/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23679)
在您的代理中获取这篇论文:
hf papers read 2606\.23679
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.23679 以从本页面链接它。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.23679 以从本页面链接它。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.23679 以从本页面链接它。
包含此论文的收藏集0
没有收藏集包含此论文
将这篇论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接它。
相似文章
统一多模态模型的语义生成微调
介绍了语义生成微调(SGT),一种利用图像分割作为生成代理来对齐统一多模态模型中的视觉理解和生成任务的范式,从而提升理解能力和生成保真度。
多样性注入的位置至关重要:面向多样化生成的统一框架
本文提出了一个用于大型语言模型测试时多样化生成的统一框架,根据多样性注入的位置(表面级 vs. 规范级)对方法进行分类。它提出了规范级方法,首先生成多样化的中间规范,然后基于这些规范生成最终响应。在五个开放任务和四个骨干模型上,规范级注入在保持质量的同时提升了输出多样性。
Semantic DLM+:通过转移核设计中的偏差-方差权衡改进扩散语言模型
本文从偏差-方差角度对扩散语言模型进行了理论分析,识别了掩码扩散与均匀扩散核之间的权衡。提出了SemDLM+,通过添加全局转移和语义频率惩罚来克服语义盆地问题,在LM1B和OpenWebText基准上实现了有竞争力的生成质量。
自我演进的视觉提问器
本文介绍了一种面向视觉语言模型的自我演进框架,使其在没有外部监督的情况下提升提问能力,不仅提高了问题质量,还增强了回答者的表现。
面向主体驱动生成的多模态大语言模型能力挖掘
本文提出了一种新颖的方法,将扩散模型以多模态大语言模型(MLLMs)为条件,用于主体驱动图像生成,使用基于VAE的身份条件化和双层聚合模块,提高语义理解和身份保持,同时减轻复制粘贴伪影。