RoPE 在长上下文中既无法区分位置也无法区分词元，可证明

Hugging Face Daily Papers 2026/05/15 00:00 论文

rope position-encoding long-context attention-mechanism llm-limitations theoretical-analysis empirical-study

摘要

本文证明，基于RoPE的注意力机制在长上下文中无法区分词元位置和身份，解释了LLM在宣称的上下文长度内失败的原因。实验验证表明，针对检索优化的模型在简单列表任务上表现困难。

我们发现了基于Transformer的长上下文语言模型中旋转位置嵌入（RoPE）的内在局限性。我们的理论分析抽象掉了上下文的具体内容，仅依赖于其长度。我们证明，随着上下文长度的增加，基于RoPE的注意力机制变得不可预测，并失去了对其有效性至关重要的两个特性。首先，它失去了局部性偏置：RoPE不再更倾向于邻近位置而非远距离位置。其次，它失去了词元相关性的一致性：某个位置中获得比另一个键向量更高注意力分数的键向量，在另一个位置可能获得更低的分数。在这两种情况下，失败的概率接近0.5，不比随机猜测更好。我们进一步证明，当将一个键词元移动到不同位置，甚至替换为不同的词元时，注意力分数可以保持不变，这表明无法区分位置或词元。调整RoPE基值会在区分位置和区分词元之间进行权衡，但无法同时保留两者。增加RoPE基超参数（当今长上下文模型中的常见做法）有助于区分不同的词元，但不可避免地牺牲了区分位置的能力。我们的实证分析表明，多头、多层架构不足以克服这些局限性。我们的发现表明，未来的Transformer长上下文语言模型可能需要根本性的新机制来编码位置和词元顺序。

查看原文

查看缓存全文

缓存时间: 2026/05/20 18:39

论文页面 - 理论证明：RoPE在长上下文中既无法区分位置也无法区分Token

来源：https://huggingface.co/papers/2605.15514

大型语言模型（LLM）在其宣称的上下文长度范围内也经常出现错误。我们证明，这些问题不仅仅是工程层面的，而是RoPE在长上下文中的固有局限性所致。

主要发现：在长上下文中，基于RoPE的注意力机制常常将相同的注意力权重分配给同一个token，即使该token被移动到不同的位置；同样地，它也可以将相同的注意力权重分配给同一位置上的不同token。

在这个意义上，RoPE注意力机制既无法区分token出现的位置，也无法区分出现在那里的具体token——因此得名。

我们从理论上证明了这些结论，并通过实验进行了验证。虽然理论分析侧重于单个注意力头，但我们用真实的多层、多头LLM进行了补充实验。实验证实了我们的理论所预测的失败：那些针对“大海捞针“式检索进行了优化的LLM，在面对一个极其简单的任务（询问列表中第k个元素）时不可避免地会失败。

个人总结：对宣称的上下文长度应谨慎解读。未来的长上下文语言模型可能需要重新思考如何表示位置和token顺序。在当前架构下，采用将长上下文拆分为短上下文的智能体框架，可能是绕开RoPE固有局限性的更有效方法。

RoPE 在长上下文中既无法区分位置也无法区分词元，可证明

论文页面 - 理论证明：RoPE在长上下文中既无法区分位置也无法区分Token

相似文章

RoPE在长上下文中既不能区分位置也不能区分标记，可证明

长上下文LLM中的位置失败：推理基准测试的盲点

@samhogan：顺便提一句，RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中，它就能直接跑通……

@ickma2311: 高效AI讲座15：长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是：哪些过…

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

提交意见反馈