标签
介绍了 HDD-RoPE,这是旋转位置编码的一种扩展,它使用高维块和数据相关的旋转速率,在 TinyStories 数据集上显示出比 xPos 更快的收敛速度。
本文提供了理论证明,表明基于Transformer的语言模型中的旋转位置嵌入(RoPE)在长上下文中会失去其局部性偏差和区分标记顺序的能力,注意力分数变得不比随机更好。作者证明,增加RoPE基频会在位置区分和标记区分之间进行权衡,且多头、多层架构无法弥补这一基本限制。