标签
本文提出了一种四条件诊断协议,用于分离长上下文和检索增强语言模型中的无证据可答性、神谕证据可恢复性、全上下文利用以及检索条件利用,并在多个数据集上对五种开源权重模型进行了测试。
本文介绍了NEI-CAP,一种用于评估事实核查基准中“信息不足”示例构建方式的诊断协议,揭示了在易于取巧的NEI构建上训练的模型无法迁移到更难的、语义相关的信息不足案例上。
介绍了一种四条件诊断协议,用于识别长上下文记忆系统的失败是由于写入端的压缩丢弃了证据,还是检索端未能找到已存储的信息。分析表明,大多数基线模型的写入端差距占主导,从而推动了所提出的预期预测压缩(EPC)方法,该方法提高了相关证据的保留能力。