GEAR:引导式端到端自回归图像合成
摘要
GEAR提出了一种通过表示对齐共同训练向量量化分词器和自回归生成器的方法,实现端到端训练,在ImageNet gFID上相比强基线实现高达10倍的收敛速度提升。
查看缓存全文
缓存时间: 2026/07/01 11:42
论文页面 - GEAR:引导式端到端自回归图像合成
来源:https://huggingface.co/papers/2606.32039 发布于6月30日
·
由https://huggingface.co/LanguageBind提交
linbin (https://huggingface.co/LanguageBind)于7月1日
摘要
GEAR 通过表示对齐联合端到端地训练向量量化分词器和自回归生成器,利用双读出方法克服了不可微性问题,从而加快了收敛速度并提升了特征质量。
视觉生成模型通常分两阶段训练。首先训练分词器用于重建并冻结,然后在其离散索引或连续潜变量上训练生成器。这种解耦导致分词器无法感知生成器容易建模的内容。我们提出 GEAR(引导式端到端自回归),它联合且端到端地训练向量量化(VQ)分词器和自回归(AR)生成器,并由表示对齐引导。关键障碍在于:输入给 AR 模型的 VQ 索引是不可微的,因此梯度无法到达分词器,而直通估计器会失效。GEAR 通过对码本分配进行双读出解决了这一问题。一个硬性的独热分支通过下一个词元预测训练 AR,而一个可微的软分支则携带表示对齐损失,该损失反向传播以仅引导分词器。由此,AR 模型引导其分词器朝向更易预测的索引分布。这将对齐负担从分词器转移到 AR 上:分词器自身特征变得不那么像 DINOv2,而 AR 的特征则变得更像,这与扩散侧让潜变量本身具有语义的做法相反。与强大的 LlamaGen-REPA 基线相比,GEAR 在 ImageNet gFID 上收敛速度提升高达 10 倍,学习到的补丁级和空间连贯特征显著更优,并且可推广到多种量化器(VQVAE、LFQ、IBQ)以及文本到图像生成。
查看 arXiv 页面 (https://arxiv.org/abs/2606.32039)查看 PDF (https://arxiv.org/pdf/2606.32039)项目页面 (https://linb203.github.io/gear)GitHub33 (https://github.com/Tencent-Hunyuan/GEAR)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.32039)
将此论文加入你的智能体:
hf papers read 2606\.32039
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型6
BinLin203/Warmup-LFQ 更新于约9小时前 • 2 (https://huggingface.co/BinLin203/Warmup-LFQ)
BinLin203/Warmup-IBQ 更新于约9小时前 • 2 (https://huggingface.co/BinLin203/Warmup-IBQ)
BinLin203/GEAR-VQ 更新于约9小时前 • 1 (https://huggingface.co/BinLin203/GEAR-VQ)
BinLin203/GEAR-LFQ 更新于约9小时前 (https://huggingface.co/BinLin203/GEAR-LFQ)
浏览引用此论文的6个模型 (https://huggingface.co/models?other=arxiv:2606.32039)## 引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.32039 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.32039 以从此页面链接。
包含此论文的收藏集1
相似文章
RankE:面向离散文本到图像生成的端到端后训练与解码器协同进化
RankE 提出了一种用于离散文本到图像生成的端到端后训练框架,通过联合优化生成器和解码器来解决潜在协变量偏移问题,同时提升对齐度与保真度。
通过教师对齐的端到端蒸馏实现高保真两步图像生成
本文介绍了Z-Image Turbo++,这是一个两步图像生成模型,通过使用分布对齐的对抗学习、步骤解耦参数化以及带有迭代正则化的端到端训练,从八步教师模型中蒸馏而来,旨在缩小与多步生成之间的质量差距。
InsightTok:在离散标记化中提升文本与人脸保真度以改进自回归图像生成
InsightTok 引入内容感知的感知损失,改进离散视觉标记化以更好地重建文本和人脸,从而提升自回归图像生成质量。
跨尺度对齐监督训练GANs
本文提出CAT,一种跨尺度对齐变换器,通过强制中间GAN输出与最终输出之间的一致性来解决轨迹错位问题,在ImageNet-256上实现了1.56的最优FID。
unsloth/ERNIE-Image-Turbo-GGUF
unsloth 发布了基于百度的 ERNIE-Image-Turbo 模型的 GGUF 量化版本,采用 Unsloth Dynamic 2.0 方法,能够在配备 24GB 显存的消费级 GPU 上通过 8 步推理高效实现文生图。