通过判别式文本表征将一步图像生成从类别标签扩展到文本
摘要
研究者通过集成高判别力的大语言模型文本编码器,将 MeanFlow 一步图像生成从固定类别标签扩展到灵活文本输入,实现高效的文本条件合成并显著提升性能。
查看缓存全文
缓存时间: 2026/04/21 11:27
论文页面 - 将一步图像生成从类别标签扩展到文本:基于判别式文本表示
来源:https://huggingface.co/papers/2604.18168
摘要
研究者通过引入强大的 LLM 文本编码器,将 MeanFlow 生成从类别标签扩展到文本输入,借助更具判别力的语义特征表示,克服少步精修的限制。
少步生成一直是长期目标,近期以 MeanFlow(https://huggingface.co/papers?q=MeanFlow)为代表的一步生成方法取得了显著成果。现有 MeanFlow 研究主要聚焦类别到图像生成(https://huggingface.co/papers?q=class-to-image%20generation)。然而,一个直观却未被探索的方向是将条件从固定的类别标签扩展到灵活的文本输入,从而实现更丰富的内容创作。与有限的类别标签相比,文本条件对模型理解能力提出更高要求,需将强大的文本编码器有效融入 MeanFlow 框架。令人惊讶的是,尽管引入文本条件看似直接,但采用常规训练策略整合强大的LLM 文本编码器(https://huggingface.co/papers?q=LLM-based%20text%20encoders)效果并不理想。为探究根本原因,我们进行详细分析,发现由于 MeanFlow 生成中精修步数(https://huggingface.co/papers?q=refinement%20steps)极少(仅一步),文本特征表示必须具备足够高的判别性(https://huggingface.co/papers?q=discriminability)。这也解释了为何离散且易区分的类别特征在 MeanFlow 框架中表现良好。基于这一洞察,我们利用已验证具备所需语义属性(https://huggingface.co/papers?q=semantic%20properties)的强大 LLM 文本编码器,并针对该框架调整 MeanFlow 生成流程,首次实现高效的文本条件合成(https://huggingface.co/papers?q=text-conditioned%20synthesis)。此外,我们在广泛使用的扩散模型(https://huggingface.co/papers?q=diffusion%20model)上验证方法,带来显著的生成性能提升(https://huggingface.co/papers?q=generation%20performance%20improvements)。希望本研究为未来文本条件 MeanFlow 生成提供通用且实用的参考。代码已开源:https://github.com/AMAP-ML/EMF。
查看 arXiv 页面(https://arxiv.org/abs/2604.18168)查看 PDF(https://arxiv.org/pdf/2604.18168)GitHub73(https://github.com/AMAP-ML/EMF)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18168)
在智能体中获取该论文:
hf papers read 2604\.18168
未安装最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.18168 即可在此页面显示。
收录该论文的合集 0
暂无合集收录此论文
将此论文添加到合集即可在此页面显示。
相似文章
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。
@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配:LLM…
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。
使用CLIP潜在表示的分层文本条件图像生成
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
RankE:面向离散文本到图像生成的端到端后训练与解码器协同进化
RankE 提出了一种用于离散文本到图像生成的端到端后训练框架,通过联合优化生成器和解码器来解决潜在协变量偏移问题,同时提升对齐度与保真度。
TextLDM:利用连续潜在扩散进行语言建模
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。