标签
本文证明,注意力沉没、表示坍塌和范数分层并非注意力机制所独有,而是基于内容的路由在盲范数相似性度量下的普遍结果,这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。