reasoning-benchmark

标签

Cards List
#reasoning-benchmark

长上下文LLM中的位置失败:推理基准测试的盲点

arXiv cs.CL · 2026-05-25 缓存

本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈