基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

Reddit r/MachineLearning 2026/06/11 09:32 论文

摘要

本文提出了一种自适应视频令牌化方法，利用潜在空间中的时间冗余动态分配令牌，实现高效压缩，无需辅助网络。所提出的潜在修补变压器（Latent Inpainting Transformer）重建被丢弃的位置，相比ElasticTok-CV实现31倍加速，相比InfoTok实现2倍加速。

链接 - [https://arxiv.org/abs/2606.06158](https://arxiv.org/abs/2606.06158) 摘要：自适应视频令牌化旨在根据序列的底层视觉复杂度动态分配令牌预算。当前的连续方法通过迭代二值化搜索或训练的神经回归器实现，而离散方法通常需要全速率解码器通过来估计信息含量。我们证明这些计算开销并非绝对必要。我们展示了冻结连续视频令牌化器的潜在空间天然编码了可直接利用的时间冗余：那些潜在表示在连续帧之间变化极小的空间位置携带几乎为零的额外信息。我们引入了一种无参数的自适应令牌分配机制，对每个位置的时间L1差异应用固定阈值，识别并丢弃冗余的潜在位置。因此，压缩率自然由输入内容决定，而非自上而下强制：静态场景被激进压缩，而高度动态序列保留更多令牌。为了重建被丢弃的位置，我们提出了潜在修补变压器（LIT），一种轻量化的分解时空注意力架构。最终推理流程高效，仅需一次编码器前向传播和一次LIT前向传播，无需辅助路由网络。在TokenBench和DAVIS上的评估（这是近期令牌化器使用的标准基准）表明，我们的框架实现了有意义的、内容驱动的令牌分配，同时保持有竞争力的重建保真度，相比连续自适应基线（ElasticTok-CV）实现31倍推理加速，相比离散信息论基线（InfoTok）实现2倍加速。

查看原文

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

相似文章

InsightTok：在离散标记化中提升文本与人脸保真度以改进自回归图像生成

EarlyTom：早期Token压缩实现快速视频理解

通过学习的Token路由在Transformer中实现自适应计算深度

基于门控关联检索的通用三重潜在压缩

使用Token叠加的高效预训练

提交意见反馈