如何测试一个长上下文推理系统?
摘要
一个关于测试能够跨100m+上下文进行近乎完美推理的系统的假设性问题,引发了关于如何证明其能力的讨论。
假设有人构建了一个能够跨极其大量的上下文(100m+)进行近乎完美推理的系统,并且在所有针眼测试中,它在MRCR V2上得分约为98%,你会用它做什么?假设该LLM只是更大系统中的一个组件,而非整个系统本身。你如何以一种难以被质疑的方式证明其能力?
相似文章
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。
监控内部独白:探针轨迹揭示推理动态
本文介绍了一种通过分析探针轨迹(即概念概率在生成token上的演变)来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征,更好地预测未来模型行为,通过最大池化达到了高达95%的AUROC。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。
人工理性的谜题:探究大型推理模型中的生成-评估差距
本文研究了大型推理模型(LRMs)中的生成-评估差距,发现尽管它们能近乎完美地生成解决方案,但由于答案确认偏差,它们无法稳健地评估推理过程。