标签
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。