@lateinteraction: 目前，我认为极少数长上下文基准测试中值得重视的两个是 OBLIQ-Bench…

X AI KOLs Following 2026/06/17 23:49 新闻

long-context benchmarks recall expertise ai-opinion

摘要

一位评论者指出，OBLIQ-Bench（recall@k）和 StudyBench（expertise）是少数可靠的长上下文基准测试中的两个。

目前，我认为极少数长上下文基准测试中值得重视的两个是 OBLIQ-Bench（recall@k）和 StudyBench（expertise）。

查看原文

相似文章

X AI KOLs Following

OBLIQ-Bench 是一个新的基准测试，揭示了当前检索系统在处理需要潜在或隐式推理的间接查询时的弱点，表明即使复杂的检索流程也无法提供相关文档，而这些文档是推理型大语言模型容易验证的。

Reddit r/AI_Agents

新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识，凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案，并提到了 langmem、mem0、supermemory 和 Greplica 等工具。

arXiv cs.CL

本论文识别出长上下文LLM推理基准测试中的一个盲点：它们未能控制任务在上下文中的位置，导致位置失败未被检测到。作者提出上下文旋转评估（CRE）来系统地改变任务位置、填充内容和上下文长度，揭示出当推理任务放置在长上下文中时，某些模型的准确率会严重下降。

X AI KOLs Following

作者介绍了OBLIQ-Bench，这是一个新基准，用于评估信息检索系统在明显更难的搜索查询上的表现，而之前的基准测试几乎没有剩余提升空间。

X AI KOLs Following

CL-Bench 是一个经过专家验证的跨六个领域的新基准，用于评估基于LLM的智能体是否真正从序列经验中学习。它发现，朴素上下文学习往往优于专用的记忆系统，表明当前架构增加了开销而非真正的学习。