标签
本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。