优质令牌狩猎:视觉几何变换器中令牌选择的搭车指南

Hugging Face Daily Papers 论文

摘要

本文提出了一种用于视觉几何变换器的两阶段令牌选择框架,通过在全局注意力中限制键/值令牌来降低计算成本,在包含500张图像的场景上实现了超过85%的加速,同时保持了基线性能。

视觉几何变换器已成为多视图三维重建的强大架构,能够以前馈方式联合预测多个三维属性。然而,由于这些模型内部的全局注意力层,其计算成本随输入序列长度呈二次方增长,这限制了它们的可扩展性和效率。在这项工作中,我们通过一种简单而通用的策略来解决这一挑战:在全局注意力中限制每个查询所交互的键/值令牌数量。为了实现有效的令牌选择,我们引入了一个两阶段框架。首先,帧间选择步骤在帧级别运作,识别应保留的帧。其次,帧内选择步骤进一步丢弃所选帧中更冗余的令牌。我们的分析强调了基于多样性的帧间选择策略的优势,该策略确保对场景的广泛覆盖。对于帧内选择,我们表明需要层感知稀疏化,选择过程由全局注意力模式的熵引导。与现有解决方案相比,我们的方法提供了优越的速度-精度权衡。大量实验表明,对于包含500张图像的场景,它使视觉几何变换器加速超过85%,同时保持甚至提高基线性能,这暗示了我们的令牌选择策略如何在视觉几何变换器的未来应用中发挥关键作用。我们的项目网站可在 https://zsh2000.github.io/good-token-hunting.github.io 访问。
查看原文
查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - 优质Token狩猎:视觉几何Transformer的Token选择指南

来源:https://huggingface.co/papers/2605.23892

摘要

视觉几何Transformer通过一个两阶段token选择框架实现加速,在降低计算成本的同时保持性能。

Visual geometry transformers (https://huggingface.co/papers?q=Visual%20geometry%20transformers)已成为多视图3D重建 (https://huggingface.co/papers?q=multi-view%203D%20reconstruction)的强大架构,能够以前馈方式联合预测多个3D属性。然而,由于这些模型内部使用了全局注意力层 (https://huggingface.co/papers?q=global%20attention%20layers),其计算成本随输入序列长度呈二次增长。这限制了它们的可扩展性和效率。在本工作中,我们通过一个简单而通用的策略来应对这一挑战:限制每个查询在全局注意力中交互的键/值token数量。为了实现有效的token选择 (https://huggingface.co/papers?q=token%20selection),我们引入了一个两阶段框架。首先,帧间选择 (https://huggingface.co/papers?q=inter-frame%20selection)步骤在帧级别操作,以识别需要保留的帧。其次,帧内选择 (https://huggingface.co/papers?q=intra-frame%20selection)步骤进一步丢弃所选帧中更冗余的token。我们的分析突出了基于多样性的策略在帧间选择 (https://huggingface.co/papers?q=inter-frame%20selection)中的优势,该策略确保了场景的广泛覆盖。对于帧内选择 (https://huggingface.co/papers?q=intra-frame%20selection),我们表明层感知稀疏化 (https://huggingface.co/papers?q=layer-aware%20sparsification)是必要的,选择过程由全局注意力模式的熵来指导。与现有解决方案相比,我们的方法提供了更优的速度-精度权衡。大量实验表明,对于包含500张图像的场景,该方法将visual geometry transformers (https://huggingface.co/papers?q=visual%20geometry%20transformers)加速超过85%,同时保持甚至提升基线性能,这暗示了我们的token选择 (https://huggingface.co/papers?q=token%20selection)策略在visual geometry transformers (https://huggingface.co/papers?q=visual%20geometry%20transformers)的未来应用中可以发挥关键作用。我们的项目网站可在 https://zsh2000.github.io/good-token-hunting.github.io/ 访问。

查看arXiv页面 (https://arxiv.org/abs/2605.23892)查看PDF (https://arxiv.org/pdf/2605.23892)项目页面 (https://zsh2000.github.io/good-token-hunting.github.io/)GitHub4 (https://github.com/zsh2000/gotohunt)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.23892)

在你的agent中获取此论文:

hf papers read 2605.23892

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在一个模型的 README.md 中引用 arxiv.org/abs/2605.23892,以从该页面链接到此论文。

引用此论文的数据集0

没有数据集链接此论文

请在一个数据集的 README.md 中引用 arxiv.org/abs/2605.23892,以从该页面链接到此论文。

引用此论文的Spaces0

没有Space链接此论文

请在一个Space的 README.md 中引用 arxiv.org/abs/2605.23892,以从该页面链接到此论文。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection)中,以从该页面链接到此论文。

相似文章

(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers

# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始

世界模型的可识别令牌对应

arXiv cs.LG

本文提出可识别令牌对应(Identifiable Token Correspondence)方法,通过建模跨时间帧的令牌对应关系,提升基于Transformer的世界模型在视觉强化学习中的时间一致性,在多个基准测试中取得最先进结果。

EarlyTom:早期Token压缩实现快速视频理解

Hugging Face Daily Papers

EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。