RoPE 在长上下文中既无法区分位置也无法区分词元,可证明

Hugging Face Daily Papers 论文

摘要

本文证明,基于RoPE的注意力机制在长上下文中无法区分词元位置和身份,解释了LLM在宣称的上下文长度内失败的原因。实验验证表明,针对检索优化的模型在简单列表任务上表现困难。

我们发现了基于Transformer的长上下文语言模型中旋转位置嵌入(RoPE)的内在局限性。我们的理论分析抽象掉了上下文的具体内容,仅依赖于其长度。我们证明,随着上下文长度的增加,基于RoPE的注意力机制变得不可预测,并失去了对其有效性至关重要的两个特性。首先,它失去了局部性偏置:RoPE不再更倾向于邻近位置而非远距离位置。其次,它失去了词元相关性的一致性:某个位置中获得比另一个键向量更高注意力分数的键向量,在另一个位置可能获得更低的分数。在这两种情况下,失败的概率接近0.5,不比随机猜测更好。我们进一步证明,当将一个键词元移动到不同位置,甚至替换为不同的词元时,注意力分数可以保持不变,这表明无法区分位置或词元。调整RoPE基值会在区分位置和区分词元之间进行权衡,但无法同时保留两者。增加RoPE基超参数(当今长上下文模型中的常见做法)有助于区分不同的词元,但不可避免地牺牲了区分位置的能力。我们的实证分析表明,多头、多层架构不足以克服这些局限性。我们的发现表明,未来的Transformer长上下文语言模型可能需要根本性的新机制来编码位置和词元顺序。
查看原文
查看缓存全文

缓存时间: 2026/05/20 18:39

论文页面 - 理论证明:RoPE在长上下文中既无法区分位置也无法区分Token

来源:https://huggingface.co/papers/2605.15514

大型语言模型(LLM)在其宣称的上下文长度范围内也经常出现错误。我们证明,这些问题不仅仅是工程层面的,而是RoPE在长上下文中的固有局限性所致。

主要发现:在长上下文中,基于RoPE的注意力机制常常将相同的注意力权重分配给同一个token,即使该token被移动到不同的位置;同样地,它也可以将相同的注意力权重分配给同一位置上的不同token。

在这个意义上,RoPE注意力机制既无法区分token出现的位置,也无法区分出现在那里的具体token——因此得名。

我们从理论上证明了这些结论,并通过实验进行了验证。虽然理论分析侧重于单个注意力头,但我们用真实的多层、多头LLM进行了补充实验。实验证实了我们的理论所预测的失败:那些针对“大海捞针“式检索进行了优化的LLM,在面对一个极其简单的任务(询问列表中第k个元素)时不可避免地会失败。

个人总结:对宣称的上下文长度应谨慎解读。未来的长上下文语言模型可能需要重新思考如何表示位置和token顺序。在当前架构下,采用将长上下文拆分为短上下文的智能体框架,可能是绕开RoPE固有局限性的更有效方法。

相似文章

RoPE在长上下文中既不能区分位置也不能区分标记,可证明

arXiv cs.CL

本文提供了理论证明,表明基于Transformer的语言模型中的旋转位置嵌入(RoPE)在长上下文中会失去其局部性偏差和区分标记顺序的能力,注意力分数变得不比随机更好。作者证明,增加RoPE基频会在位置区分和标记区分之间进行权衡,且多头、多层架构无法弥补这一基本限制。

长上下文LLM中的位置失败:推理基准测试的盲点

arXiv cs.CL

本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。