用于可扩展视觉 Transformer 的弹性注意力核 [R]

Reddit r/MachineLearning 论文

摘要

本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。

想分享我们最新的一篇论文,提出了一种视觉 Transformer 的替代构建模块。[我们模型准确率及密集特征的示意图](https://preview.redd.it/x4acnx478w0h1.png?width=2457&format=png&auto=webp&s=3ce49caf2b0cdea5d35141aebb7297862fdc6a7d) 传统的 ViT 利用密集(***N**^(2)***)自注意力,这在较高分辨率下会显得相当昂贵。在这项工作中,我们提出了一种替代主干网络,采用核心-外围块稀疏注意力结构,对于 ***C*** 个核心 token,其复杂度随(***2NC + N**^(2)***)缩放。我们进一步使用嵌套 dropout 对其进行训练,这使得可以在推理时弹性调整推理成本。与 DINOv3 相比,整个模型在密集特征和分类准确率方面具有非常有竞争力的表现,并且在各种分辨率下(从 256 一直到 1024)保持稳定。有趣的是,核心密集注意力模式表现出强烈的涌现行为。在网络的早期层,注意力图是各向同性的(球形),但随着网络层数的加深,它们变得越来越符合语义对齐。[视觉弹性核心注意力论文摘要图示](https://preview.redd.it/zjea47ez7w0h1.png?width=935&format=png&auto=webp&s=dc78ddcd4b6faf5b135f78cd9881cdf6650e4cc8) 在调整核心 token 数量时,如果减少核心数量,注意力模式会变得更加弥散,覆盖更大的空间区域。如果增加核心 token 的数量,注意力模式会变得更小且更集中。 论文:[https://arxiv.org/abs/2605.12491](https://arxiv.org/abs/2605.12491) 包含代码的项目(仍在进行中):[https://github.com/alansong1322/VECA](https://github.com/alansong1322/VECA) 很高兴回答关于我们研究的任何问题。
查看原文

相似文章

使用稀疏Transformer进行生成建模

OpenAI Blog

OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。

变分线性注意力:用于长上下文 Transformer 的稳定联想记忆

arXiv cs.LG

本文介绍了变分线性注意力(VLA),这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题,证明了状态范数的有界性,并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。