reasoning-benchmark

#reasoning-benchmark

长上下文LLM中的位置失败：推理基准测试的盲点

arXiv cs.CL ↗ · 2026-05-25 缓存

本论文识别出长上下文LLM推理基准测试中的一个盲点：它们未能控制任务在上下文中的位置，导致位置失败未被检测到。作者提出上下文旋转评估（CRE）来系统地改变任务位置、填充内容和上下文长度，揭示出当推理任务放置在长上下文中时，某些模型的准确率会严重下降。

0 人收藏 0 人点赞