RankE：面向离散文本到图像生成的端到端后训练与解码器协同进化

Hugging Face Daily Papers 2026/05/20 00:00 论文

text-to-image generation post-training discrete decoder-co-evolution latent-covariate-shift end-to-end

摘要

RankE 提出了一种用于离散文本到图像生成的端到端后训练框架，通过联合优化生成器和解码器来解决潜在协变量偏移问题，同时提升对齐度与保真度。

离散自回归文本到图像生成模型将 VQ 分词器与自回归策略配对，当前的后训练流水线仅优化策略而保持 VQ 解码器冻结。近期扩散式文本到图像生成的工作（以 REPA-E 为例）表明，VAE 本身构成了关键的对齐瓶颈，然而对于离散自回归模型尚无类似的探究。我们证明，仅优化策略会导致潜在协变量偏移：随着策略的演化，所得 token 的分布会偏离解码器训练时所依据的真实分布，从而导致奖励分数提升但解码图像质量下降。为解决这一不匹配问题，我们提出 RankE——首个面向离散文本到图像生成的端到端后训练框架。RankE 并非在固定解码器的基础上优化策略，而是通过交替优化使两个组件协同进化：每个模块在最大化基于排序的对齐目标的同时，受一个适合其参数空间的稳定性保持锚点正则化。这种协同进化打破了冻结解码器方法中存在的保真度与对齐度的权衡：在 LlamaGen-XL (775M) 上，标准强化学习提升了 CLIP 但降低了 FID，而 RankE 同时提升了二者（在 MS-COCO 30K 上 FID 15.21，CLIP 33.76）。在 Janus-Pro (1B) 上的一致增益证实，解码器协同进化能够可靠地将奖励优化转化为像素空间的质量提升。

查看原文

查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - RankE：面向离散文本到图像生成的端到端后训练与解码器协同进化

来源：https://huggingface.co/papers/2605.21195 **项目页面：**https://syjmelody.github.io/RankE/ **GitHub：**https://github.com/syjmelody/RankE

https://huggingface.co/papers/2605.21195#%E2%9A%A1-tldr⚡ 一句话总结

RankE 是首个面向离散文本到图像生成的端到端后训练框架，它联合优化生成器 (Generator) 和解码器 (Decoder)。与那种以牺牲图像质量为代价来提升奖励分数的做法不同，RankE 能同时提升对齐度 (alignment) 和保真度 (fidelity)。

https://huggingface.co/papers/2605.21195#%F0%9F%A4%94-背景-问题是什么🤔 背景：问题是什么？

大多数离散文本到图像模型仍然遵循两阶段流程：

训练一个 VQ-VAE/分词器 (tokenizer)，将图像映射为离散视觉 token；
训练一个自回归生成器 (Generator) 来对这些 token 进行建模。

这个流程在预训练阶段效果不错，但后训练阶段往往不完整：现有方法只优化生成器，而保持解码器固定不变。

这就造成了不匹配。随着生成器为了追求更高奖励而优化，其输出的 token 分布逐渐偏离解码器在分词器训练阶段所见到的真实 token 分布。结果就出现了一个令人沮丧的权衡：

奖励分数提高了，
但解码出的图像质量可能变差。

论文将此问题定义为潜在协变量偏移 (Latent Covariate Shift)。

https://huggingface.co/papers/2605.21195#%F0%9F%94%8D-为什么现有解决方案不够用🔍 为什么现有解决方案不够用

最近的工作，如 REPA-E，已经表明在连续扩散模型中，自编码器不仅仅是一个辅助模块——它可能是对齐度和视觉质量的真正瓶颈。

但离散文本到图像生成更困难。由于 token 采样和向量量化是离散操作，梯度无法干净地流过整个生成过程。这就是为什么大多数现有的用于离散生成的 RL 或偏好优化方法仍然只更新生成器，而保持解码器不变的原因。

因此，业界已经知道解码器很重要——但一直缺乏一个面向离散生成的实用端到端解决方案。

https://huggingface.co/papers/2605.21195#%F0%9F%9A%80-ranke-做了什么🚀 RankE 做了什么

RankE 通过让生成器和解码器协同进化直接解决了这个问题。

其核心洞察很简单：如果生成器优化本质上已经是对潜在 token 序列进行排序的过程，那么为什么不能将相同的排序原则扩展到像素空间的解码器优化呢？

因此，RankE 采用交替优化：

**生成器步骤：**优化策略，使得获得更高奖励的潜在 token 序列得到更强的更新；
**解码器步骤：**优化解码器，使其能够更好地适应生成器不断演化的 token 分布，同时优先考虑获得更高奖励的解码图像。

换句话说，RankE 不仅仅让模型“更擅长得分”。它使得潜在空间和像素空间上的优化保持一致。

这正是它与标准的固定解码器 RL 的关键区别。

https://huggingface.co/papers/2605.21195#%F0%9F%A7%A0-为什么这很重要🧠 为什么这很重要

在离散文本到图像生成的标准 RL 后训练中，生成器不断变化，但解码器保持固定。随着时间的推移，解码器被迫解码那些它从未真正训练过要处理的 token 模式。

RankE 通过在后训练过程中持续适应解码器，移除了这个瓶颈。这使得奖励优化转化为实际的视觉改进，而不是在潜在空间中的奖励欺骗 (reward hacking)。

https://huggingface.co/papers/2605.21195#%F0%9F%93%88-结果📈 结果

效果非常明显。

在 LlamaGen-XL (775M) 上，采用基于 CLIP 的优化：

**标准 RL：**提升了 CLIP，但损害了 FID
**RankE：**两者都得到提升

具体地：

**CLIP：**32.45 → 33.76
**FID：**17.76 → 15.21

这就是论文的核心信息：RankE 打破了离散文本到图像生成后训练中常见的保真度-对齐度权衡。

改进效果在不同方面也是一致的：

不同的主干网络 (backbone)，
不同的奖励函数，
以及多种评估设置。

https://huggingface.co/papers/2605.21195#%E2%9C%A8-一句话总结✨ 一句话总结

RankE 是一种更自然的离散文本到图像模型后训练方式：它不只是在优化生成器，而是让生成器和解码器共同进步。

RankE：面向离散文本到图像生成的端到端后训练与解码器协同进化

论文页面 - RankE：面向离散文本到图像生成的端到端后训练与解码器协同进化

https://huggingface.co/papers/2605.21195#%E2%9A%A1-tldr⚡ 一句话总结

https://huggingface.co/papers/2605.21195#%F0%9F%A4%94-背景-问题是什么🤔 背景：问题是什么？

https://huggingface.co/papers/2605.21195#%F0%9F%94%8D-为什么现有解决方案不够用🔍 为什么现有解决方案不够用

https://huggingface.co/papers/2605.21195#%F0%9F%9A%80-ranke-做了什么🚀 RankE 做了什么

https://huggingface.co/papers/2605.21195#%F0%9F%A7%A0-为什么这很重要🧠 为什么这很重要

https://huggingface.co/papers/2605.21195#%F0%9F%93%88-结果📈 结果

https://huggingface.co/papers/2605.21195#%E2%9C%A8-一句话总结✨ 一句话总结

相似文章

通过判别式文本表征将一步图像生成从类别标签扩展到文本

InsightTok：在离散标记化中提升文本与人脸保真度以改进自回归图像生成

使用CLIP潜在表示的分层文本条件图像生成

GenEvolve：通过工具编排的视觉经验蒸馏实现自我进化的图像生成代理

通过奖励倾斜分布匹配强化少步生成器

提交意见反馈