如何测试一个长上下文推理系统？

Reddit r/ArtificialInteligence 2026/06/03 00:27 新闻

long-context reasoning testing evaluation needle-tests

摘要

一个关于测试能够跨100m+上下文进行近乎完美推理的系统的假设性问题，引发了关于如何证明其能力的讨论。

假设有人构建了一个能够跨极其大量的上下文（100m+）进行近乎完美推理的系统，并且在所有针眼测试中，它在MRCR V2上得分约为98%，你会用它做什么？假设该LLM只是更大系统中的一个组件，而非整个系统本身。你如何以一种难以被质疑的方式证明其能力？

查看原文

相似文章

arXiv cs.CL

本论文识别出长上下文LLM推理基准测试中的一个盲点：它们未能控制任务在上下文中的位置，导致位置失败未被检测到。作者提出上下文旋转评估（CRE）来系统地改变任务位置、填充内容和上下文长度，揭示出当推理任务放置在长上下文中时，某些模型的准确率会严重下降。

arXiv cs.AI

本文介绍了一个用于推理评估的多轮交互框架，其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准，展示了区分能力并揭示了推理差异。

Hugging Face Daily Papers

本文介绍了一种通过分析探针轨迹（即概念概率在生成token上的演变）来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征，更好地预测未来模型行为，通过最大池化达到了高达95%的AUROC。

arXiv cs.CL

提出ProxyCoT训练框架，通过先在小代理上下文中获取链式思维推理轨迹（通过强化学习或蒸馏），再通过监督微调将其锚定到完整长上下文中，从而提升大语言模型的长上下文推理能力。实验表明，该方法在降低计算成本的同时持续优于基线。

Hugging Face Daily Papers

本文研究了大型推理模型（LRMs）中的生成-评估差距，发现尽管它们能近乎完美地生成解决方案，但由于答案确认偏差，它们无法稳健地评估推理过程。