GEAR：引导式端到端自回归图像合成

Hugging Face Daily Papers 2026/06/30 00:00 论文

摘要

GEAR提出了一种通过表示对齐共同训练向量量化分词器和自回归生成器的方法，实现端到端训练，在ImageNet gFID上相比强基线实现高达10倍的收敛速度提升。

视觉生成模型通常分两阶段训练。首先训练分词器进行重建，然后冻结，之后在其离散索引或连续潜变量上训练生成器。这种解耦导致分词器不了解生成器容易建模的内容。我们提出GEAR（引导式端到端自回归），通过表示对齐引导，联合端到端地训练向量量化（VQ）分词器和自回归（AR）生成器。关键障碍在于，输入AR模型的VQ索引不可微，因此梯度无法到达分词器，且直通估计器会崩溃。GEAR通过双重读出来解决此问题：一个硬one-hot分支使用下一令牌预测训练AR，而一个可微的软分支携带表示对齐损失，流回仅引导分词器。这样，AR模型将其分词器引导向更易于预测的索引分布。这将对齐负担从分词器转移到AR：分词器自身的特征变得不那么像DINOv2，而AR的特征则更像，这与使潜变量本身变得语义化的扩散侧配方相反。GEAR相比强基线LlamaGen-REPA在ImageNet gFID收敛速度上提升高达10倍，学习到明显更好的块级和空间一致特征，并泛化到各种量化器（VQVAE、LFQ、IBQ）和文本到图像生成。

查看原文

查看缓存全文

缓存时间: 2026/07/01 11:42

论文页面 - GEAR：引导式端到端自回归图像合成

来源：https://huggingface.co/papers/2606.32039 发布于6月30日

由https://huggingface.co/LanguageBind提交

linbin (https://huggingface.co/LanguageBind)于7月1日

摘要

GEAR 通过表示对齐联合端到端地训练向量量化分词器和自回归生成器，利用双读出方法克服了不可微性问题，从而加快了收敛速度并提升了特征质量。

视觉生成模型通常分两阶段训练。首先训练分词器用于重建并冻结，然后在其离散索引或连续潜变量上训练生成器。这种解耦导致分词器无法感知生成器容易建模的内容。我们提出 GEAR（引导式端到端自回归），它联合且端到端地训练向量量化（VQ）分词器和自回归（AR）生成器，并由表示对齐引导。关键障碍在于：输入给 AR 模型的 VQ 索引是不可微的，因此梯度无法到达分词器，而直通估计器会失效。GEAR 通过对码本分配进行双读出解决了这一问题。一个硬性的独热分支通过下一个词元预测训练 AR，而一个可微的软分支则携带表示对齐损失，该损失反向传播以仅引导分词器。由此，AR 模型引导其分词器朝向更易预测的索引分布。这将对齐负担从分词器转移到 AR 上：分词器自身特征变得不那么像 DINOv2，而 AR 的特征则变得更像，这与扩散侧让潜变量本身具有语义的做法相反。与强大的 LlamaGen-REPA 基线相比，GEAR 在 ImageNet gFID 上收敛速度提升高达 10 倍，学习到的补丁级和空间连贯特征显著更优，并且可推广到多种量化器（VQVAE、LFQ、IBQ）以及文本到图像生成。

查看 arXiv 页面 (https://arxiv.org/abs/2606.32039)查看 PDF (https://arxiv.org/pdf/2606.32039)项目页面 (https://linb203.github.io/gear)GitHub33 (https://github.com/Tencent-Hunyuan/GEAR)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.32039)

将此论文加入你的智能体：

hf papers read 2606\.32039

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型6

BinLin203/Warmup-LFQ 更新于约9小时前 • 2 (https://huggingface.co/BinLin203/Warmup-LFQ)

BinLin203/Warmup-IBQ 更新于约9小时前 • 2 (https://huggingface.co/BinLin203/Warmup-IBQ)

BinLin203/GEAR-VQ 更新于约9小时前 • 1 (https://huggingface.co/BinLin203/GEAR-VQ)

BinLin203/GEAR-LFQ 更新于约9小时前 (https://huggingface.co/BinLin203/GEAR-LFQ)

浏览引用此论文的6个模型 (https://huggingface.co/models?other=arxiv:2606.32039)## 引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.32039 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.32039 以从此页面链接。

GEAR：引导式端到端自回归图像合成

论文页面 - GEAR：引导式端到端自回归图像合成

摘要

引用此论文的模型6

BinLin203/Warmup-LFQ 更新于约9小时前 • 2 (https://huggingface.co/BinLin203/Warmup-LFQ)

BinLin203/Warmup-IBQ 更新于约9小时前 • 2 (https://huggingface.co/BinLin203/Warmup-IBQ)

BinLin203/GEAR-VQ 更新于约9小时前 • 1 (https://huggingface.co/BinLin203/GEAR-VQ)

BinLin203/GEAR-LFQ 更新于约9小时前 (https://huggingface.co/BinLin203/GEAR-LFQ)

引用此论文的 Spaces0

包含此论文的收藏集1

相似文章

RankE：面向离散文本到图像生成的端到端后训练与解码器协同进化

通过教师对齐的端到端蒸馏实现高保真两步图像生成

InsightTok：在离散标记化中提升文本与人脸保真度以改进自回归图像生成

跨尺度对齐监督训练GANs

unsloth/ERNIE-Image-Turbo-GGUF

提交意见反馈