path-attention

标签

Cards List
#path-attention

为什么累积变换能够实现外推?

arXiv cs.LG · 3天前 缓存

本文研究了为何累积的、依赖于token的正交变换(如PaTH Attention中使用的以及简化版SO(2)旋转变体)能使Transformer实现长度外推。论文证明此类变换在有限步后变得不连贯,从而抑制对远距离token的注意力;同时从理论和实验上表明该机制能改善外推,但在极端上下文长度下性能最终会下降。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈