基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]
摘要
本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。
链接 - [https://arxiv.org/abs/2606.06158](https://arxiv.org/abs/2606.06158) 摘要:自适应视频令牌化旨在根据序列的底层视觉复杂度动态分配令牌预算。当前的连续方法通过迭代二值化搜索或训练的神经回归器实现,而离散方法通常需要全速率解码器通过来估计信息含量。我们证明这些计算开销并非绝对必要。我们展示了冻结连续视频令牌化器的潜在空间天然编码了可直接利用的时间冗余:那些潜在表示在连续帧之间变化极小的空间位置携带几乎为零的额外信息。我们引入了一种无参数的自适应令牌分配机制,对每个位置的时间L1差异应用固定阈值,识别并丢弃冗余的潜在位置。因此,压缩率自然由输入内容决定,而非自上而下强制:静态场景被激进压缩,而高度动态序列保留更多令牌。为了重建被丢弃的位置,我们提出了潜在修补变压器(LIT),一种轻量化的分解时空注意力架构。最终推理流程高效,仅需一次编码器前向传播和一次LIT前向传播,无需辅助路由网络。在TokenBench和DAVIS上的评估(这是近期令牌化器使用的标准基准)表明,我们的框架实现了有意义的、内容驱动的令牌分配,同时保持有竞争力的重建保真度,相比连续自适应基线(ElasticTok-CV)实现31倍推理加速,相比离散信息论基线(InfoTok)实现2倍加速。
相似文章
InsightTok:在离散标记化中提升文本与人脸保真度以改进自回归图像生成
InsightTok 引入内容感知的感知损失,改进离散视觉标记化以更好地重建文本和人脸,从而提升自回归图像生成质量。
EarlyTom:早期Token压缩实现快速视频理解
EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。
通过学习的Token路由在Transformer中实现自适应计算深度
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。
基于门控关联检索的通用三重潜在压缩
本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。
使用Token叠加的高效预训练
Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。