优质令牌狩猎:视觉几何变换器中令牌选择的搭车指南
摘要
本文提出了一种用于视觉几何变换器的两阶段令牌选择框架,通过在全局注意力中限制键/值令牌来降低计算成本,在包含500张图像的场景上实现了超过85%的加速,同时保持了基线性能。
查看缓存全文
缓存时间: 2026/05/25 06:36
论文页面 - 优质Token狩猎:视觉几何Transformer的Token选择指南
来源:https://huggingface.co/papers/2605.23892
摘要
视觉几何Transformer通过一个两阶段token选择框架实现加速,在降低计算成本的同时保持性能。
Visual geometry transformers (https://huggingface.co/papers?q=Visual%20geometry%20transformers)已成为多视图3D重建 (https://huggingface.co/papers?q=multi-view%203D%20reconstruction)的强大架构,能够以前馈方式联合预测多个3D属性。然而,由于这些模型内部使用了全局注意力层 (https://huggingface.co/papers?q=global%20attention%20layers),其计算成本随输入序列长度呈二次增长。这限制了它们的可扩展性和效率。在本工作中,我们通过一个简单而通用的策略来应对这一挑战:限制每个查询在全局注意力中交互的键/值token数量。为了实现有效的token选择 (https://huggingface.co/papers?q=token%20selection),我们引入了一个两阶段框架。首先,帧间选择 (https://huggingface.co/papers?q=inter-frame%20selection)步骤在帧级别操作,以识别需要保留的帧。其次,帧内选择 (https://huggingface.co/papers?q=intra-frame%20selection)步骤进一步丢弃所选帧中更冗余的token。我们的分析突出了基于多样性的策略在帧间选择 (https://huggingface.co/papers?q=inter-frame%20selection)中的优势,该策略确保了场景的广泛覆盖。对于帧内选择 (https://huggingface.co/papers?q=intra-frame%20selection),我们表明层感知稀疏化 (https://huggingface.co/papers?q=layer-aware%20sparsification)是必要的,选择过程由全局注意力模式的熵来指导。与现有解决方案相比,我们的方法提供了更优的速度-精度权衡。大量实验表明,对于包含500张图像的场景,该方法将visual geometry transformers (https://huggingface.co/papers?q=visual%20geometry%20transformers)加速超过85%,同时保持甚至提升基线性能,这暗示了我们的token选择 (https://huggingface.co/papers?q=token%20selection)策略在visual geometry transformers (https://huggingface.co/papers?q=visual%20geometry%20transformers)的未来应用中可以发挥关键作用。我们的项目网站可在 https://zsh2000.github.io/good-token-hunting.github.io/ 访问。
查看arXiv页面 (https://arxiv.org/abs/2605.23892)查看PDF (https://arxiv.org/pdf/2605.23892)项目页面 (https://zsh2000.github.io/good-token-hunting.github.io/)GitHub4 (https://github.com/zsh2000/gotohunt)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.23892)
在你的agent中获取此论文:
hf papers read 2605.23892
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在一个模型的 README.md 中引用 arxiv.org/abs/2605.23892,以从该页面链接到此论文。
引用此论文的数据集0
没有数据集链接此论文
请在一个数据集的 README.md 中引用 arxiv.org/abs/2605.23892,以从该页面链接到此论文。
引用此论文的Spaces0
没有Space链接此论文
请在一个Space的 README.md 中引用 arxiv.org/abs/2605.23892,以从该页面链接到此论文。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection)中,以从该页面链接到此论文。
相似文章
ToolGate:面向工具增强型视觉语言代理的令牌高效预调用控制
ToolGate 是一个轻量级的外部控制器,能够预测在视觉语言代理中是否执行或跳过感知工具调用,从而将令牌成本降至基线的64%-69%,同时保持跨域设置下的准确性。
(1D) 有序词元实现高效测试时搜索
# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始
通过学习的Token路由在Transformer中实现自适应计算深度
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。
世界模型的可识别令牌对应
本文提出可识别令牌对应(Identifiable Token Correspondence)方法,通过建模跨时间帧的令牌对应关系,提升基于Transformer的世界模型在视觉强化学习中的时间一致性,在多个基准测试中取得最先进结果。
EarlyTom:早期Token压缩实现快速视频理解
EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。