用于可扩展视觉 Transformer 的弹性注意力核 [R]

Reddit r/MachineLearning 2026/05/13 11:51 论文

摘要

本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文，提出了一种核心-外围块稀疏注意力结构，与 DINOv3 等密集自注意力方法相比，该结构提高了可扩展性和准确率。

想分享我们最新的一篇论文，提出了一种视觉 Transformer 的替代构建模块。[我们模型准确率及密集特征的示意图](https://preview.redd.it/x4acnx478w0h1.png?width=2457&format=png&auto=webp&s=3ce49caf2b0cdea5d35141aebb7297862fdc6a7d) 传统的 ViT 利用密集（***N**^(2)***）自注意力，这在较高分辨率下会显得相当昂贵。在这项工作中，我们提出了一种替代主干网络，采用核心-外围块稀疏注意力结构，对于 ***C*** 个核心 token，其复杂度随（***2NC + N**^(2)***）缩放。我们进一步使用嵌套 dropout 对其进行训练，这使得可以在推理时弹性调整推理成本。与 DINOv3 相比，整个模型在密集特征和分类准确率方面具有非常有竞争力的表现，并且在各种分辨率下（从 256 一直到 1024）保持稳定。有趣的是，核心密集注意力模式表现出强烈的涌现行为。在网络的早期层，注意力图是各向同性的（球形），但随着网络层数的加深，它们变得越来越符合语义对齐。[视觉弹性核心注意力论文摘要图示](https://preview.redd.it/zjea47ez7w0h1.png?width=935&format=png&auto=webp&s=dc78ddcd4b6faf5b135f78cd9881cdf6650e4cc8) 在调整核心 token 数量时，如果减少核心数量，注意力模式会变得更加弥散，覆盖更大的空间区域。如果增加核心 token 的数量，注意力模式会变得更小且更集中。论文：[https://arxiv.org/abs/2605.12491](https://arxiv.org/abs/2605.12491) 包含代码的项目（仍在进行中）：[https://github.com/alansong1322/VECA](https://github.com/alansong1322/VECA) 很高兴回答关于我们研究的任何问题。

查看原文

用于可扩展视觉 Transformer 的弹性注意力核 [R]

相似文章

使用稀疏Transformer进行生成建模

用于守恒律的稳健基础模型：通过循环视觉转换器将上下文注入通量神经算子

变分线性注意力：用于长上下文 Transformer 的稳定联想记忆

大型视觉-语言模型在注意力机制中迷失

Lite3R：一种高效的模型无关前馈3D重建框架

提交意见反馈