RankE:面向离散文本到图像生成的端到端后训练与解码器协同进化
摘要
RankE 提出了一种用于离散文本到图像生成的端到端后训练框架,通过联合优化生成器和解码器来解决潜在协变量偏移问题,同时提升对齐度与保真度。
查看缓存全文
缓存时间: 2026/05/25 06:36
论文页面 - RankE:面向离散文本到图像生成的端到端后训练与解码器协同进化
来源:https://huggingface.co/papers/2605.21195 **项目页面:**https://syjmelody.github.io/RankE/ **GitHub:**https://github.com/syjmelody/RankE
https://huggingface.co/papers/2605.21195#%E2%9A%A1-tldr⚡ 一句话总结
RankE 是首个面向离散文本到图像生成的端到端后训练框架,它联合优化生成器 (Generator) 和解码器 (Decoder)。与那种以牺牲图像质量为代价来提升奖励分数的做法不同,RankE 能同时提升对齐度 (alignment) 和保真度 (fidelity)。
https://huggingface.co/papers/2605.21195#%F0%9F%A4%94-背景-问题是什么🤔 背景:问题是什么?
大多数离散文本到图像模型仍然遵循两阶段流程:
- 训练一个 VQ-VAE/分词器 (tokenizer),将图像映射为离散视觉 token;
- 训练一个自回归生成器 (Generator) 来对这些 token 进行建模。
这个流程在预训练阶段效果不错,但后训练阶段往往不完整:现有方法只优化生成器,而保持解码器固定不变。
这就造成了不匹配。随着生成器为了追求更高奖励而优化,其输出的 token 分布逐渐偏离解码器在分词器训练阶段所见到的真实 token 分布。结果就出现了一个令人沮丧的权衡:
- 奖励分数提高了,
- 但解码出的图像质量可能变差。
论文将此问题定义为潜在协变量偏移 (Latent Covariate Shift)。
https://huggingface.co/papers/2605.21195#%F0%9F%94%8D-为什么现有解决方案不够用🔍 为什么现有解决方案不够用
最近的工作,如 REPA-E,已经表明在连续扩散模型中,自编码器不仅仅是一个辅助模块——它可能是对齐度和视觉质量的真正瓶颈。
但离散文本到图像生成更困难。由于 token 采样和向量量化是离散操作,梯度无法干净地流过整个生成过程。这就是为什么大多数现有的用于离散生成的 RL 或偏好优化方法仍然只更新生成器,而保持解码器不变的原因。
因此,业界已经知道解码器很重要——但一直缺乏一个面向离散生成的实用端到端解决方案。
https://huggingface.co/papers/2605.21195#%F0%9F%9A%80-ranke-做了什么🚀 RankE 做了什么
RankE 通过让生成器和解码器协同进化直接解决了这个问题。
其核心洞察很简单:如果生成器优化本质上已经是对潜在 token 序列进行排序的过程,那么为什么不能将相同的排序原则扩展到像素空间的解码器优化呢?
因此,RankE 采用交替优化:
- **生成器步骤:**优化策略,使得获得更高奖励的潜在 token 序列得到更强的更新;
- **解码器步骤:**优化解码器,使其能够更好地适应生成器不断演化的 token 分布,同时优先考虑获得更高奖励的解码图像。
换句话说,RankE 不仅仅让模型“更擅长得分”。它使得潜在空间和像素空间上的优化保持一致。
这正是它与标准的固定解码器 RL 的关键区别。
https://huggingface.co/papers/2605.21195#%F0%9F%A7%A0-为什么这很重要🧠 为什么这很重要
在离散文本到图像生成的标准 RL 后训练中,生成器不断变化,但解码器保持固定。随着时间的推移,解码器被迫解码那些它从未真正训练过要处理的 token 模式。
RankE 通过在后训练过程中持续适应解码器,移除了这个瓶颈。这使得奖励优化转化为实际的视觉改进,而不是在潜在空间中的奖励欺骗 (reward hacking)。
https://huggingface.co/papers/2605.21195#%F0%9F%93%88-结果📈 结果
效果非常明显。
在 LlamaGen-XL (775M) 上,采用基于 CLIP 的优化:
- **标准 RL:**提升了 CLIP,但损害了 FID
- **RankE:**两者都得到提升
具体地:
- **CLIP:**32.45 → 33.76
- **FID:**17.76 → 15.21
这就是论文的核心信息:RankE 打破了离散文本到图像生成后训练中常见的保真度-对齐度权衡。
改进效果在不同方面也是一致的:
- 不同的主干网络 (backbone),
- 不同的奖励函数,
- 以及多种评估设置。
https://huggingface.co/papers/2605.21195#%E2%9C%A8-一句话总结✨ 一句话总结
RankE 是一种更自然的离散文本到图像模型后训练方式:它不只是在优化生成器,而是让生成器和解码器共同进步。
相似文章
通过判别式文本表征将一步图像生成从类别标签扩展到文本
研究者通过集成高判别力的大语言模型文本编码器,将 MeanFlow 一步图像生成从固定类别标签扩展到灵活文本输入,实现高效的文本条件合成并显著提升性能。
InsightTok:在离散标记化中提升文本与人脸保真度以改进自回归图像生成
InsightTok 引入内容感知的感知损失,改进离散视觉标记化以更好地重建文本和人脸,从而提升自回归图像生成质量。
使用CLIP潜在表示的分层文本条件图像生成
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
GenEvolve:通过工具编排的视觉经验蒸馏实现自我进化的图像生成代理
GenEvolve是一个自我进化的图像生成框架,它利用工具编排的轨迹和视觉经验蒸馏来迭代提升生成能力,取得了最先进的性能。
通过奖励倾斜分布匹配强化少步生成器
RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。