标签
本文研究了密集检索器中位置偏差的来源是架构还是训练数据,发现训练数据分布强烈影响偏差,而均衡训练可将敏感性降低高达87%,同时保持检索性能。
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。
本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。