@lateinteraction: 目前,我认为极少数长上下文基准测试中值得重视的两个是 OBLIQ-Bench…

X AI KOLs Following 新闻

摘要

一位评论者指出,OBLIQ-Bench(recall@k)和 StudyBench(expertise)是少数可靠的长上下文基准测试中的两个。

目前,我认为极少数长上下文基准测试中值得重视的两个是 OBLIQ-Bench(recall@k)和 StudyBench(expertise)。
查看原文

相似文章

长上下文LLM中的位置失败:推理基准测试的盲点

arXiv cs.CL

本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。