通过判别式文本表征将一步图像生成从类别标签扩展到文本

Hugging Face Daily Papers 论文

摘要

研究者通过集成高判别力的大语言模型文本编码器,将 MeanFlow 一步图像生成从固定类别标签扩展到灵活文本输入,实现高效的文本条件合成并显著提升性能。

少步生成一直是长期追求的目标,近期以 MeanFlow 为代表的一步生成方法取得了瞩目成果。现有 MeanFlow 研究主要集中在类别到图像的生成。一个直观却未被探索的方向是将条件从固定类别标签扩展到灵活文本输入,从而支持更丰富的内容创作。相比有限的类别标签,文本条件对模型理解能力提出更高要求,需将强大的文本编码器有效融入 MeanFlow 框架。令人惊讶的是,尽管引入文本条件看似直接,我们发现采用常规训练策略集成基于大语言模型的强文本编码器会导致性能不佳。为揭示根本原因,我们进行了详细分析,发现由于 MeanFlow 生成仅含极少(如一步)精炼步数,文本特征表示必须具备足够高的判别力。这也解释了为何离散且易区分的类别特征在 MeanFlow 框架中表现良好。基于这一洞察,我们利用已验证具备所需语义特性的强 LLM 文本编码器,并适配 MeanFlow 生成流程,首次实现高效的文本条件合成。此外,我们在常用扩散模型上验证方法,生成性能显著提升。希望本研究为后续文本条件 MeanFlow 生成提供通用且实用的参考。代码已开源:https://github.com/AMAP-ML/EMF
查看原文
查看缓存全文

缓存时间: 2026/04/21 11:27

论文页面 - 将一步图像生成从类别标签扩展到文本:基于判别式文本表示

来源:https://huggingface.co/papers/2604.18168

摘要

研究者通过引入强大的 LLM 文本编码器,将 MeanFlow 生成从类别标签扩展到文本输入,借助更具判别力的语义特征表示,克服少步精修的限制。

少步生成一直是长期目标,近期以 MeanFlow(https://huggingface.co/papers?q=MeanFlow)为代表的一步生成方法取得了显著成果。现有 MeanFlow 研究主要聚焦类别到图像生成(https://huggingface.co/papers?q=class-to-image%20generation)。然而,一个直观却未被探索的方向是将条件从固定的类别标签扩展到灵活的文本输入,从而实现更丰富的内容创作。与有限的类别标签相比,文本条件对模型理解能力提出更高要求,需将强大的文本编码器有效融入 MeanFlow 框架。令人惊讶的是,尽管引入文本条件看似直接,但采用常规训练策略整合强大的LLM 文本编码器(https://huggingface.co/papers?q=LLM-based%20text%20encoders)效果并不理想。为探究根本原因,我们进行详细分析,发现由于 MeanFlow 生成中精修步数(https://huggingface.co/papers?q=refinement%20steps)极少(仅一步),文本特征表示必须具备足够高的判别性(https://huggingface.co/papers?q=discriminability)。这也解释了为何离散且易区分的类别特征在 MeanFlow 框架中表现良好。基于这一洞察,我们利用已验证具备所需语义属性(https://huggingface.co/papers?q=semantic%20properties)的强大 LLM 文本编码器,并针对该框架调整 MeanFlow 生成流程,首次实现高效的文本条件合成(https://huggingface.co/papers?q=text-conditioned%20synthesis)。此外,我们在广泛使用的扩散模型(https://huggingface.co/papers?q=diffusion%20model)上验证方法,带来显著的生成性能提升(https://huggingface.co/papers?q=generation%20performance%20improvements)。希望本研究为未来文本条件 MeanFlow 生成提供通用且实用的参考。代码已开源:https://github.com/AMAP-ML/EMF。

查看 arXiv 页面(https://arxiv.org/abs/2604.18168)查看 PDF(https://arxiv.org/pdf/2604.18168)GitHub73(https://github.com/AMAP-ML/EMF)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18168)

在智能体中获取该论文:

hf papers read 2604\.18168

未安装最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。

收录该论文的合集 0

暂无合集收录此论文

将此论文添加到合集即可在此页面显示。

相似文章

FlowLM: 基于扩散-流适配的少步语言建模

arXiv cs.CL

FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。

TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。