@lateinteraction: 目前,我认为极少数长上下文基准测试中值得重视的两个是 OBLIQ-Bench…
摘要
一位评论者指出,OBLIQ-Bench(recall@k)和 StudyBench(expertise)是少数可靠的长上下文基准测试中的两个。
目前,我认为极少数长上下文基准测试中值得重视的两个是 OBLIQ-Bench(recall@k)和 StudyBench(expertise)。
相似文章
@_reachsumit: OBLIQ-Bench: 揭示现代检索器中因潜在和隐式查询而被忽视的瓶颈 @dianetc_ 等人提出…
OBLIQ-Bench 是一个新的基准测试,揭示了当前检索系统在处理需要潜在或隐式推理的间接查询时的弱点,表明即使复杂的检索流程也无法提供相关文档,而这些文档是推理型大语言模型容易验证的。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
@dianetc_: 我们着手构建一个更好的检索器,因此寻找了最难的IR基准测试。针对每个基准,我们询问了还有多少提升空间……
作者介绍了OBLIQ-Bench,这是一个新基准,用于评估信息检索系统在明显更难的搜索查询上的表现,而之前的基准测试几乎没有剩余提升空间。
@omarsar0: // Continual Learning Bench // 持续学习是投入大量资金的研究领域之一。虽然存在…
CL-Bench 是一个经过专家验证的跨六个领域的新基准,用于评估基于LLM的智能体是否真正从序列经验中学习。它发现,朴素上下文学习往往优于专用的记忆系统,表明当前架构增加了开销而非真正的学习。