通过判别式文本表征将一步图像生成从类别标签扩展到文本

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

研究者通过集成高判别力的大语言模型文本编码器，将 MeanFlow 一步图像生成从固定类别标签扩展到灵活文本输入，实现高效的文本条件合成并显著提升性能。

少步生成一直是长期追求的目标，近期以 MeanFlow 为代表的一步生成方法取得了瞩目成果。现有 MeanFlow 研究主要集中在类别到图像的生成。一个直观却未被探索的方向是将条件从固定类别标签扩展到灵活文本输入，从而支持更丰富的内容创作。相比有限的类别标签，文本条件对模型理解能力提出更高要求，需将强大的文本编码器有效融入 MeanFlow 框架。令人惊讶的是，尽管引入文本条件看似直接，我们发现采用常规训练策略集成基于大语言模型的强文本编码器会导致性能不佳。为揭示根本原因，我们进行了详细分析，发现由于 MeanFlow 生成仅含极少（如一步）精炼步数，文本特征表示必须具备足够高的判别力。这也解释了为何离散且易区分的类别特征在 MeanFlow 框架中表现良好。基于这一洞察，我们利用已验证具备所需语义特性的强 LLM 文本编码器，并适配 MeanFlow 生成流程，首次实现高效的文本条件合成。此外，我们在常用扩散模型上验证方法，生成性能显著提升。希望本研究为后续文本条件 MeanFlow 生成提供通用且实用的参考。代码已开源：https://github.com/AMAP-ML/EMF

查看原文

查看缓存全文

缓存时间: 2026/04/21 11:27

论文页面 - 将一步图像生成从类别标签扩展到文本：基于判别式文本表示

来源：https://huggingface.co/papers/2604.18168

摘要

研究者通过引入强大的 LLM 文本编码器，将 MeanFlow 生成从类别标签扩展到文本输入，借助更具判别力的语义特征表示，克服少步精修的限制。

少步生成一直是长期目标，近期以 MeanFlow（https://huggingface.co/papers?q=MeanFlow）为代表的一步生成方法取得了显著成果。现有 MeanFlow 研究主要聚焦类别到图像生成（https://huggingface.co/papers?q=class-to-image%20generation）。然而，一个直观却未被探索的方向是将条件从固定的类别标签扩展到灵活的文本输入，从而实现更丰富的内容创作。与有限的类别标签相比，文本条件对模型理解能力提出更高要求，需将强大的文本编码器有效融入 MeanFlow 框架。令人惊讶的是，尽管引入文本条件看似直接，但采用常规训练策略整合强大的LLM 文本编码器（https://huggingface.co/papers?q=LLM-based%20text%20encoders）效果并不理想。为探究根本原因，我们进行详细分析，发现由于 MeanFlow 生成中精修步数（https://huggingface.co/papers?q=refinement%20steps）极少（仅一步），文本特征表示必须具备足够高的判别性（https://huggingface.co/papers?q=discriminability）。这也解释了为何离散且易区分的类别特征在 MeanFlow 框架中表现良好。基于这一洞察，我们利用已验证具备所需语义属性（https://huggingface.co/papers?q=semantic%20properties）的强大 LLM 文本编码器，并针对该框架调整 MeanFlow 生成流程，首次实现高效的文本条件合成（https://huggingface.co/papers?q=text-conditioned%20synthesis）。此外，我们在广泛使用的扩散模型（https://huggingface.co/papers?q=diffusion%20model）上验证方法，带来显著的生成性能提升（https://huggingface.co/papers?q=generation%20performance%20improvements）。希望本研究为未来文本条件 MeanFlow 生成提供通用且实用的参考。代码已开源：https://github.com/AMAP-ML/EMF。

查看 arXiv 页面（https://arxiv.org/abs/2604.18168）查看 PDF（https://arxiv.org/pdf/2604.18168）GitHub73（https://github.com/AMAP-ML/EMF）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.18168）

在智能体中获取该论文：

hf papers read 2604\.18168

未安装最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。

收录该论文的合集 0

暂无合集收录此论文

将此论文添加到合集即可在此页面显示。

通过判别式文本表征将一步图像生成从类别标签扩展到文本

论文页面 - 将一步图像生成从类别标签扩展到文本：基于判别式文本表示

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

FlowLM: 基于扩散-流适配的少步语言建模

@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配：LLM…

使用CLIP潜在表示的分层文本条件图像生成

RankE：面向离散文本到图像生成的端到端后训练与解码器协同进化

TextLDM：利用连续潜在扩散进行语言建模

提交意见反馈