标签
本文研究了为何累积的、依赖于token的正交变换(如PaTH Attention中使用的以及简化版SO(2)旋转变体)能使Transformer实现长度外推。论文证明此类变换在有限步后变得不连贯,从而抑制对远距离token的注意力;同时从理论和实验上表明该机制能改善外推,但在极端上下文长度下性能最终会下降。