如何测试一个长上下文推理系统?

Reddit r/ArtificialInteligence 新闻

摘要

一个关于测试能够跨100m+上下文进行近乎完美推理的系统的假设性问题,引发了关于如何证明其能力的讨论。

假设有人构建了一个能够跨极其大量的上下文(100m+)进行近乎完美推理的系统,并且在所有针眼测试中,它在MRCR V2上得分约为98%,你会用它做什么?假设该LLM只是更大系统中的一个组件,而非整个系统本身。你如何以一种难以被质疑的方式证明其能力?
查看原文

相似文章

长上下文LLM中的位置失败:推理基准测试的盲点

arXiv cs.CL

本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。

监控内部独白:探针轨迹揭示推理动态

Hugging Face Daily Papers

本文介绍了一种通过分析探针轨迹(即概念概率在生成token上的演变)来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征,更好地预测未来模型行为,通过最大池化达到了高达95%的AUROC。

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。