利用自引导标记化平衡图像压缩与生成

arXiv cs.LG 论文

摘要

介绍了SelfBootTok,一种自引导标记化方法,它将全局和局部信息分离,使生成器计算量减少约40%,仅用64个标记即实现了1.56的gFID新最先进水平。

arXiv:2606.05552v1 公告类型:新 摘要:尽管图像标记化取得了进展,但标准方法通过在每个标记内混合所有粒度来编码冗余信息,因此标记之间仍然存在冗余。不同粒度信息的混合也使生成器的训练复杂化。本文介绍了SelfBootTok,一种通过将信息清晰分解为全局和局部标记组来解决此问题的方法。通过自引导学习,模型仅从全局标记预测局部细节,将视觉细节的负担从生成器转移到标记器。因此,我们的生成器效率更高,仅需全局标记,计算量减少约40%,同时提供更优的重建和生成效果。此外,这种范式优雅地扩展:通过利用更多数据或参数来自监督局部表示学习,SelfBootTok仅用64个标记即实现了1.56的gFID新最先进分数。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:11

# 通过自引导令牌化实现图像压缩与生成的平衡
来源:https://arxiv.org/html/2606.05552
Haozhe Chi¹, Jinghan Li¹, Hao Jiang¹, Wu Sheng¹, Yi Ma², Jing Wang², Yadong Mu¹   
¹北京大学,²华为中央媒体技术研究院

###### 摘要

尽管图像令牌化技术取得了进展,但标准方法将不同粒度的信息混合在每个令牌中,导致令牌之间仍然存在冗余。不同粒度信息的混杂也使得生成器的训练变得复杂。本文提出 SelfBootTok,一种通过将信息清晰分解为全局和局部令牌组来解决此问题的方法。通过自引导学习,模型仅从全局令牌预测局部细节,将视觉细节的负担从生成器转移到令牌化器。因此,我们的生成器效率大大提高,仅需全局令牌,计算量减少约 40%,同时实现更优的重建和生成性能。此外,这种范式优雅地实现了扩展:通过利用更多数据或参数来自监督局部表示学习,SelfBootTok 仅使用 64 个令牌就达到了新的最先进 gFID 分数 1.56。

## 1 引言

近年来,基于扩散的图像生成取得了显著进展,以扩散变换器(DiT)[peebles2023scalable](https://arxiv.org/html/2606.05552#bib.bib1) 和流匹配 [lipman2022flow](https://arxiv.org/html/2606.05552#bib.bib2); [gat2024discrete](https://arxiv.org/html/2606.05552#bib.bib3); [dao2023flow](https://arxiv.org/html/2606.05552#bib.bib4) 为代表。除了扩散模型,其他生成范式如掩码生成模型和自回归视觉模型也取得了显著发展。例如,VAR [tian2024visual](https://arxiv.org/html/2606.05552#bib.bib5) 引入了下一尺度预测,其中自回归视觉模型超越了扩散模型。此外,MAE-tok [chen2025masked](https://arxiv.org/html/2606.05552#bib.bib6) 和 MAR [li2024autoregressive](https://arxiv.org/html/2606.05552#bib.bib7) 改进了掩码生成建模,提升了下游生成性能。多尺度设计,如 HieraTok [chen2025hieratok](https://arxiv.org/html/2606.05552#bib.bib8)、VAR [tian2024visual](https://arxiv.org/html/2606.05552#bib.bib5) 和 FlowAR [ren2024flowar](https://arxiv.org/html/2606.05552#bib.bib9),进一步提升了性能。在质量提升的同时,近期研究也聚焦于增强生成效率。例如,Lightning-DiT [yao2025reconstruction](https://arxiv.org/html/2606.05552#bib.bib10) 通过优化图像生成的潜在表示来加速训练,解决了重建与生成的权衡问题。类似地,REG [wu2025representation](https://arxiv.org/html/2606.05552#bib.bib11) 加速了 SiT [ma2024sitexploringflowdiffusionbased](https://arxiv.org/html/2606.05552#bib.bib12) 的训练。随着生成框架的进步,图像令牌化成为通过紧凑潜在表示实现多模态理解和生成的关键。早期方法如 VQ-GAN [esser2021taming](https://arxiv.org/html/2606.05552#bib.bib13) 和 VQ-VAE [van2017neural](https://arxiv.org/html/2606.05552#bib.bib14) 将图像编码为二维网格潜在变量,保留了空间关系。然而,图像块与令牌之间严格一对一映射的必要性并不明确,这促使了对一维序列令牌化器的探索,这类方法在保持关键语义和结构信息的同时实现了更高的压缩率。

参见图注:图 1:我们的自引导学习范式示意图。与经典的一维图像令牌化器 [yu2024image](https://arxiv.org/html/2606.05552#bib.bib15); [chen2025softvq](https://arxiv.org/html/2606.05552#bib.bib16); [xiong2025gigatok](https://arxiv.org/html/2606.05552#bib.bib17) 以及近期引入局部细节注入的方法 [chen2025hieratok](https://arxiv.org/html/2606.05552#bib.bib8); [esteves2025spectral](https://arxiv.org/html/2606.05552#bib.bib18) 相比,我们的方法采用全局-局部分解以实现高效的层次化表示学习,并采用自引导策略实现高效生成和可扩展训练。

一维图像令牌化器的出现,将图像编码为紧凑的潜在序列,为传统的二维网格表示提供了一种有前景的替代方案。关键挑战在于在极有限数量的令牌内同时捕获全局语义和局部细节。早期的努力如 Titok [tian2024visual](https://arxiv.org/html/2606.05552#bib.bib5) 证明了图像可以用少至 32 个一维令牌有效表示,确立了这一范式的可行性。随后的发展,包括 Flextok [bachmann2025flextok](https://arxiv.org/html/2606.05552#bib.bib19)、TA-Titok [kim2025democratizing](https://arxiv.org/html/2606.05552#bib.bib20)、Flowtok [he2025flowtok](https://arxiv.org/html/2606.05552#bib.bib21) 和 GigaTok [xiong2025gigatok](https://arxiv.org/html/2606.05552#bib.bib17),逐步提升了令牌效率、灵活性和语义丰富度。尽管有这些进展,现有方法仍然存在冗余的令牌交互以及全局与局部表示之间的重叠,限制了可扩展性和生成效率。

在这项工作中,我们提出了 SelfBootTok。该方法通过将传统视觉令牌分解为基于高层语义的(即全局令牌)和与细粒度视觉信息相关的(即局部令牌),从而改进了图像压缩与生成之间的多方面平衡。与现有工作的概念对比见图 1。这一新模型具有以下几个优点:

1. **更简单且更高效的生成器**:传统上,视觉生成器在接收到提示时需要一次性生成所有级别的视觉细节。相比之下,我们的方法利用未标注图像直接从全局令牌引导出细粒度视觉信息(如图 1 所示),从而避免了对大量文本-图像对的需求。这种方案本质上将部分生成过程移入压缩流水线。生成器可以专注于从紧凑的令牌集合中学习高层语义,所需的数据和复杂度显著降低。

2. **可扩展的图像令牌化器**:我们的令牌化器采用自监督学习策略,从全局令牌重建局部图像信息。它利用一维和二维局部令牌的混合来捕捉不同粒度的特征。引入了一种新颖的最优传输对齐方法,将这些二维特征紧凑地映射到一维令牌序列中。这种范式允许令牌化器通过使用更多数据或参数高效扩展。这种分解还最小化了令牌级别的冗余,从而减轻了后续生成器的计算负担并提升了生成效率。

3. **扩展后的令牌化器与生成器的并行优化**:该框架通过仅共享一组全局令牌实现高效扩展。在学习这些令牌后,令牌化器的全局部分被冻结。生成器和更大的、经引导的令牌化器局部组件可以随后并行训练。关键在于,这解耦了它们的设计,允许令牌化器大小变化而无需重新训练生成器。

全面的实验表明,我们的方法在一维令牌化器中达到了最先进的生成性能,并展示了自引导设计的强可扩展性。此外,我们提出了一种训练策略,在仅需一次生成全局令牌的情况下扩展局部对齐器,将总计算成本降低约 40%,训练时间减少约 54%。

## 2 相关工作

参见图注:图 2:使用 64 个令牌训练的生成模型在 ImageNet-1K 256×256 上的生成结果。我们展示了多种类别的图像,包括动物、植物和食物。我们的方法通过高效的令牌表示和局部细节实现了令人满意的生成结果。

### 2.1 图像令牌化

图像令牌化方法可根据其潜在空间类型(离散 vs. 连续)和空间结构(二维网格 vs. 一维序列)大致分类。对于离散建模,向量量化(VQ)框架 [van2017neural](https://arxiv.org/html/2606.05552#bib.bib14); [esser2021taming](https://arxiv.org/html/2606.05552#bib.bib13); [yu2021vector](https://arxiv.org/html/2606.05552#bib.bib22) 学习离散视觉令牌的码本。相比之下,连续模型如 KL-VAE [kingma2013auto](https://arxiv.org/html/2606.05552#bib.bib23) 采用重参数化技巧将潜在变量约束为高斯先验。大多数早期工作,包括 VQ-VAE 和 SD-VAE [rombach2022high](https://arxiv.org/html/2606.05552#bib.bib24),采用二维网格潜在变量以保留空间结构,这一设计是稳定扩散等扩散模型的基础。虽然非常有效,但这些二维公式在紧凑性和效率方面存在局限,促使近期研究转向一维图像令牌化器,将图像表示为高度压缩的序列嵌入。

一维图像令牌化的研究始于 Titok [yu2024image](https://arxiv.org/html/2606.05552#bib.bib15),它证明仅用 32 个令牌即可通过将图像表示为短一维序列实现有效重建。Titok 使用两阶段训练流水线进行离散一维 VQ 建模,利用来自预训练模型(如 MaskGIT-VQGAN [chang2022maskgit](https://arxiv.org/html/2606.05552#bib.bib25))的编码。后续工作探索了多个方向,包括用于文本到图像生成的 Flowtok 和 TA-Titok [he2025flowtok](https://arxiv.org/html/2606.05552#bib.bib21); [kim2025democratizing](https://arxiv.org/html/2606.05552#bib.bib20),用于可变长度序列的 Flextok 和 OneDPiece [bachmann2025flextok](https://arxiv.org/html/2606.05552#bib.bib19); [miwa2025one](https://arxiv.org/html/2606.05552#bib.bib26),以及结合一维和二维结构的 GigaTok [xiong2025gigatok](https://arxiv.org/html/2606.05552#bib.bib17)。近期工作 [beyer2025highly](https://arxiv.org/html/2606.05552#bib.bib27) 进一步研究了一维序列在细粒度图像编辑中的应用。为了提升令牌化质量,SoftVQ [chen2025softvq](https://arxiv.org/html/2606.05552#bib.bib16) 引入了可微分的软向量量化机制,MAE-Tok [chen2025masked](https://arxiv.org/html/2606.05552#bib.bib6) 利用掩码自编码实现语义更丰富的潜在空间和强重建保真度。然而,这些令牌化器均未明确区分或利用全局-局部信息。为解决这一问题,我们提出了 SelfBootTok,一种对全局-局部交互进行建模的一维令牌化器,以实现紧凑高效的图像表示。

### 2.2 生成模型

生成模型对于在下游生成任务中评估图像令牌化器至关重要,可分为扩散方法和自回归方法两大类。扩散模型通过逐渐将高斯噪声转换为结构化的潜在编码来生成图像。代表性方法包括 DiT、SiT 和 MAR [peebles2023scalable](https://arxiv.org/html/2606.05552#bib.bib1); [ma2024sitexploringflowdiffusionbased](https://arxiv.org/html/2606.05552#bib.bib12); [li2024autoregressive](https://arxiv.org/html/2606.05552#bib.bib7)。DiT 采用 Transformer 骨干网络并通过随机微分方程建模扩散过程。SiT 利用随机插值并优化概率流 ODE 的速度场。MAR 在编码器-解码器 Transformer 中统一了扩散和自回归。Lightning-DiT [yao2025reconstruction](https://arxiv.org/html/2606.05552#bib.bib10) 通过轻量级设计进一步提升了效率,平衡了重建和生成质量。自回归模型遵循大语言模型中的下一令牌预测范式,实现了统一的多模态生成。结合掩码建模的方法 [chang2022maskgit](https://arxiv.org/html/2606.05552#bib.bib25); [weber2024maskbit](https://arxiv.org/html/2606.05552#bib.bib28); [yu2023language](https://arxiv.org/html/2606.05552#bib.bib29); [yu2024image](https://arxiv.org/html/2606.05552#bib.bib15) 和下一尺度预测 [tian2024visual](https://arxiv.org/html/2606.05552#bib.bib5); [li2024imagefolder](https://arxiv.org/html/2606.05552#bib.bib30) 进一步提高了表示和生成质量。

### 2.3 多模态学习中的自引导与扩展范式

自引导已被证明能通过充分利用模型容量有效进行多模态学习。例如,BLIP-2 [li2023blip](https://arxiv.org/html/2606.05552#bib.bib31) 将其引入视觉-语言融合,OK-VQA [hao2024self](https://arxiv.org/html/2606.05552#bib.bib32) 和 VILA [fang2024vila](https://arxiv.org/html/2606.05552#bib.bib33) 将其应用于视觉问答和模型精炼,VideoJudge [waheed2025videojudge](https://arxiv.org/html/2606.05552#bib.bib34) 将其扩展到可扩展的视频评估。后续工作 [xia2025bootstrapping](https://arxiv.org/html/2606.05552#bib.bib35); [ding2024lowis3d](https://arxiv.org/html/2606.05552#bib.bib36) 验证了其在数据高效推理和三维场景理解中的潜力。然而,其在图像令牌化中的应用仍基本未被探索。大语言模型中扩展的成功激发了多模态理解和生成方面的广泛研究。在视觉理解方面,近期研究专注于多模态大语言模型中视觉编码器的扩展 [alayrac2022flamingo](https://arxiv.org/html/2606.05552#bib.bib37); [awadalla2023openflamingo](https://arxiv.org/html/2606.05552#bib.bib38); [dai2023instructblip](https://arxiv.org/html/2606.05552#bib.bib39); [li2023videochat](https://arxiv.org/html/2606.05552#bib.bib40); [lin2023video](https://arxiv.org/html/2606.05552#bib.bib41); [maaz2023video](https://arxiv.org/html/2606.05552#bib.bib42); [liu2023visual](https://arxiv.org/html/2606.05552#bib.bib43); [achiam2023gpt](https://arxiv.org/html/2606.05552#bib.bib44); [team2023gemini](https://arxiv.org/html/2606.05552#bib.bib45),其中 InternVideo2 [wang2024internvideo2](https://arxiv.org/html/2606.05552#bib.bib46) 和 CuMo [li2024cumo](https://arxiv.org/html/2606.05552#bib.bib47) 采用了高效扩展和稀疏门控混合专家层。对于图像理解,SViT [zhao2023svit](https://arxiv.org/html/2606.05552#bib.bib48)、LongLLaVA [wang2024longllava](https://arxiv.org/html/2606.05552#bib.bib49) 和 LLaVA-scale [lu2023empirical](https://arxiv.org/html/2606.05552#bib.bib50) 研究了骨干网络扩展,而 AuroraCap [chai2024auroracap](https://arxiv.org/html/2606.05552#bib.bib51) 和 LLaVA-Next [li2024llava](https://arxiv.org/html/2606.05552#bib.bib52) 使用多阶段训练来统一图像和视频的视觉指令微调。在多模态生成中,扩展仍然是一个关键挑战。诸如 ViT-VQGAN [yu2021vector](https://arxiv.org/html/2606.05552#bib.bib22) 和 ViTok [hansenestruch2025learningsscalingvisualtokenizers](https://arxiv.org/html/2606.05552#bib.bib53) 等方法表明,更大的令牌化器并不总能提升生成性能,且常常未充分利用模型容量。GigaTok [xiong2025gigatok](https://arxiv.org/html/2606.05552#bib.bib17) 通过混合 CNN-Transformer 令牌化器提高了扩展效率。然而,如何高效扩展局部令牌信息仍是一个悬而未决的问题,这也是本工作所针对的目标。

## 3 方法

参见图注:图 3:提出的 SelfbootTok 流水线概览。输入图像首先被编码为一组全局令牌,随后使用

相似文章

Compute Optimal Tokenization (2分钟阅读)

TLDR AI

本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

Reddit r/MachineLearning

本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。

EarlyTom:早期Token压缩实现快速视频理解

Hugging Face Daily Papers

EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。