用于可扩展视觉 Transformer 的弹性注意力核 [R]
摘要
本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。
想分享我们最新的一篇论文,提出了一种视觉 Transformer 的替代构建模块。[我们模型准确率及密集特征的示意图](https://preview.redd.it/x4acnx478w0h1.png?width=2457&format=png&auto=webp&s=3ce49caf2b0cdea5d35141aebb7297862fdc6a7d) 传统的 ViT 利用密集(***N**^(2)***)自注意力,这在较高分辨率下会显得相当昂贵。在这项工作中,我们提出了一种替代主干网络,采用核心-外围块稀疏注意力结构,对于 ***C*** 个核心 token,其复杂度随(***2NC + N**^(2)***)缩放。我们进一步使用嵌套 dropout 对其进行训练,这使得可以在推理时弹性调整推理成本。与 DINOv3 相比,整个模型在密集特征和分类准确率方面具有非常有竞争力的表现,并且在各种分辨率下(从 256 一直到 1024)保持稳定。有趣的是,核心密集注意力模式表现出强烈的涌现行为。在网络的早期层,注意力图是各向同性的(球形),但随着网络层数的加深,它们变得越来越符合语义对齐。[视觉弹性核心注意力论文摘要图示](https://preview.redd.it/zjea47ez7w0h1.png?width=935&format=png&auto=webp&s=dc78ddcd4b6faf5b135f78cd9881cdf6650e4cc8) 在调整核心 token 数量时,如果减少核心数量,注意力模式会变得更加弥散,覆盖更大的空间区域。如果增加核心 token 的数量,注意力模式会变得更小且更集中。
论文:[https://arxiv.org/abs/2605.12491](https://arxiv.org/abs/2605.12491)
包含代码的项目(仍在进行中):[https://github.com/alansong1322/VECA](https://github.com/alansong1322/VECA)
很高兴回答关于我们研究的任何问题。
相似文章
学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力
本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。
@gurtej__gill_: Kimi 团队在三月份写了一篇非常巧妙的论文,修复了我们似乎已经接受的一个基本缺陷……
Kimi 团队的论文 'Attention Residuals'(AttnRes)将 Transformer 中的均匀残差连接替换为基于深度的 softmax 注意力,使每一层能够动态选择先前的表示。该模型在 1.4 万亿个 token 上预训练,拥有 48B 参数,稳定了隐藏状态,并显著提升了推理任务的表现。
语法引导的稀疏注意力机制:实现高效可解释的Transformer
本文介绍了一种针对Transformer的语法引导稀疏注意力机制,旨在通过利用语言结构来提高效率和可解释性。
使用稀疏Transformer进行生成建模
OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。
@tilderesearch: https://x.com/tilderesearch/status/2061771450168889432
Wall Attention 将对角遗忘门泛化到 softmax 注意力,实现了从 4k 到 160k+ 上下文的零样本最先进长度外推,并且在预训练中优于 RoPE 和 FoX。它作为即插即用的替换方案发布,附带开源的 Triton 内核。