LLM归因指标能否迁移？跨数据集与构念的检索增强生成评估审计

arXiv cs.CL 2026/06/24 04:00 论文

摘要

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计，发现同一构念内没有单一指标能在数据集间迁移，挑战了将它们视为可互换的常见做法。

arXiv:2606.23915v1 公告类型：新摘要：实践中常将LLM检索增强生成中的归因自动指标视为可互换。我们对八种自动评分器进行了审计——包括词汇、嵌入和BERTScore基线，以及基于蕴含/接地训练的模型（clean和FEVER NLI，检查器MiniCheck）——涵盖三种评估构念（来源/主题性、生成答案归因和事实核查蕴含），探究是否有评分器能迁移：即在多数据集构念的每个数据集上，保持在最佳审计评分器的95%置信区间内。在人工标注覆盖最广的多数据集构念——生成答案归因（AttributionBench的四个源数据集，n=1,610，以及独立数据集HAGRID，n=2,150）中，没有评分器能迁移：各数据集上的指标排名发生反转（AttributedQA与LFQA的Kendall tau = -0.64，p = 0.031），一个在短声明AttributedQA上表现最佳（AUROC 0.90）的现成NLI评分器在长格式LFQA上性能骤降至AUROC 0.53（随机水平），而BERTScore胜出（0.91）；这种反转并非长度或截断伪影。这种不稳定性带来了具体的决策成本：选择评估器的朴素“平均最佳”规则在留一数据集验证中失败（平均留出遗憾0.172 AUROC，比固定一个评分器更差），因此指标选择必须在目标数据集上验证，而非从其他数据集学习。基于提示的LLM评判器避免了自动评分器遭遇的随机水平崩塌（无LFQA崩溃），但并非始终最佳，成本高出约100倍，且非确定性——仅转移而非消除验证负担。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:43

# LLM归因指标能否迁移？跨数据集与跨构造审计检索增强生成评估  
来源：https://arxiv.org/html/2606.23915  

Tianyu Ding tianyd@amazon\.com 亚马逊云科技  
&Aditya Nannapaneni anannap@amazon\.com 亚马逊云科技  
&Juan Pablo De la Cruz Weinstein jcruam@amazon\.com 亚马逊云科技  

###### 摘要  

实践中常将LLM检索增强生成中归因的自动指标视为可互换。我们审计了八种自动评分器——词法、嵌入和BERTScore基线，以及蕴含/接地训练模型（clean和FEVER NLI、专用检查器MiniCheck）——涵盖三种评估构造（出处/主题性、生成答案归因和事实核查蕴含），探究是否有评分器能够*迁移*：即在某个多数据集构造的*每个*数据集上，都保持在最佳审计评分器的95%置信区间内。在人类标注覆盖最广的多数据集构造——生成答案归因（AttributionBench的四个源数据集，n=1610，以及独立的HAGRID，n=2150）——中，没有任何评分器满足这一条件：每个数据集的指标排名出现反转（AttributedQA与LFQA的Kendall τ=−0.64，p=0.031）；一个现成的NLI评分器在短句版AttributedQA上表现最佳（AUROC 0.90），但在长文本LFQA上暴跌至AUROC 0.53（随机水平），而BERTScore则在LFQA上胜出（0.91）；这种翻转并非由长度或截断伪影导致。这种不稳定性带来了具体的决策成本：一个天真的“平均最佳”规则来选择评估器，在“留一数据集”测试中*失败*（平均留出后悔度0.172 AUROC，不如固定使用单一评分器），因此指标选择必须在目标数据集上验证，而非从其他数据集学习而来。基于提示的LLM裁判避免了自动评分器所遭受的随机水平崩塌（在LFQA上未出现崩塌），但并非始终最优，成本高出约100倍，且非确定性——这仅是将验证负担转移，而非消除。  

# LLM归因指标能否迁移？跨数据集与跨构造审计检索增强生成评估  

Tianyu Ding tianyd@amazon\.com 亚马逊云科技  
Aditya Nannapaneni anannap@amazon\.com 亚马逊云科技  
Juan Pablo De la Cruz Weinstein jcruam@amazon\.com 亚马逊云科技  

## 1 引言  

检索增强语言模型越来越多地通过*接地*进行评估：即答案中的每个主张是否得到所提供的证据支持。日益增多的自动评分工具——词法重叠、句子嵌入相似度、NLI/蕴含——取代了人工接地判断，而实践者往往将它们互换使用，仿佛“归因指标提升了”在不同指标或基准下都意味着同一件事。我们所说的“LLM归因指标”是指评估LLM/RAG输出中归因的指标（词法、嵌入、NLI/检查器和基于提示的LLM裁判变体）；我们核心审计的是更廉价的*自动*评分器，而基于提示的LLM裁判则作为边界案例。  

我们表明这种假设在两个层面上是不安全的。粗略来看，评估*构造*决定了哪种指标*家族*更为合适。更尖锐的是，*在*单一构造内部，最佳指标在其不同数据集上并不稳定，因此我们核心审计中的任何自动评分器都无法跨构造的数据集迁移。具体来说，我们审计了八种指标——现成的、未经过归因微调的评分器（词法Jaccard、MiniLM和MPNet余弦相似度、它们的固定混合、BERTScore）以及经过训练的蕴含/接地模型（clean-MNLI NLI、FEVER NLI和专用检查器MiniCheck (Tang et al., 2024)）；在出处排名任务上使用了词法/语义/混合/NLI子集——涵盖文献中常混淆的三种评估构造：  
(i) 出处/主题性——评分器是否能将相关段落排在首位（ASQA (Stelmakh et al., 2022)、MS MARCO (Nguyen et al., 2016)、HotpotQA (Yang et al., 2018)；段落排名标签，而非句子/主张级别的支持）；  
(ii) 生成答案归因——评分器是否能预测*人类*对生成答案句子是否受其引用证据支持的判断（AttributionBench (Li et al., 2024)）；  
(iii) 事实核查蕴含——评分器是否能预测*人类*对简短编辑主张的支持标签（VitaminC (Schuster et al., 2021)）。  

在粗略的跨构造层面，构造决定了合适的指标家族，在审计的基准上（表2）：每个出处门控的现成相关性评分最佳结果达到0.73–0.97的top-1准确率（与MS MARCO/HotpotQA上的NLI有重叠的bootstrap置信区间，但NLI在ASQA上不可靠，为0.585），而蕴含训练模型在事实核查主张上优于所有无微调基线（VitaminC，0.81–0.89 vs. 表面约0.60 AUROC）。  

更尖锐的发现出现在*生成答案归因*内部：在AttributionBench的四个构成数据集上，最佳指标并不稳定（每个数据集的指标排名出现反转，AttributedQA与LFQA的Kendall τ=−0.64，p=0.031）。一个简单的NLI评分器在AttributedQA上最佳（AUROC 0.90），但在LFQA上降至0.53（随机水平=0.50），而BERTScore在LFQA上达到0.91——但在*不同的*长文本集HAGRID上，同一个NLI评分器又成为最佳（0.80），因此失败是数据集特有的，不能仅用长文本*答案*来解释（长*证据*仍是一个候选因素；§4）。  

这之所以重要，是因为实践者会默默地将在一个构造或一个基准上的成功，解读为接地能力的普遍证据。先前的基准测试工作已经确定自动归因指标与人类存在分歧，并且没有单一指标在任何地方都胜出 (Honovich et al., 2022; Dziri et al., 2022; Yue et al., 2023; Li et al., 2024)；在那种定性“它们不一致”的基础上，我们的贡献是与决策相关的：一个可操作*的可移植性*标准，一个量化默认选择代价的“留一数据集”*后悔度*，以及一个失败的朴素跨数据集选择器（0.172后悔度）——这是一种验证纪律，基于受控审计，带有域内归因和事实核查方面的人类标签，并与代理标记的出处（机制发现超出范围）清晰分离。  

这是一篇评估资源/警示性论文，而非新指标论文。我们的核心贡献是跨数据集评估器选择审计；其余是支持性诊断和边界探测：  

- • **跨数据集审计**（§4，表2）表明构造大致决定了合适的指标家族，但*在*域内答案归因中，没有单一*自动*评分器在所有数据集上持续接近最佳（排名不一致，Kendall W=0.07，p=0.029）：一个原始MNLI评分器在AttributedQA上最佳（0.90），但在LFQA数据集上AUROC为0.53（随机水平=0.50）——尽管在独立的长文本HAGRID集上又成为最佳（0.80）——而专用检查器（MiniCheck）在测试的八个自动评分器中具有最低的平均“留一数据集”后悔度，但仍留下了可测量的每个数据集后悔度（平均0.044 AUROC，CI [0.014, 0.072]）。  
- • 作为支持性诊断，一个**无训练句子单位出处/主题性诊断**和**混淆证据压力测试协议**（§3, §3.1）：在混淆证据下（来自其他示例的高重叠干扰项），语义成分能够区分共出处段落和那些词法重叠失效的干扰项。我们将其与现成的NLI蕴含头进行基准比较，发现NLI的表现在不同基准上有所不同，并非始终最佳——这是一个构造(i)的诊断，而非通用接地指标。  
- • **验证纪律**（§4）：一个天真的“平均最佳”选择规则在“留一数据集”测试中失败（平均后悔度0.172，比测试中固定使用最低平均后悔度指标更差），因此指标选择必须在目标数据集上验证；以及跨家族**LLM标注探测**（Opus 4.8 + GPT-5.4，n=160）显示模型间一致性高，但与人类的一致性仅为中等且依赖于数据集——仅在最简单的（短事实）数据集上可作为有条件的代理，限制了现成LLM标签替代的使用。  
- • 最后，一个**边界指标敏感性探测**（§5）：一个结构化的GRPO奖励重写了大部分输出，但在3B或7B规模下，未改变任何确定性答案级指标（QA-EM、ROUGE-L、引文数量）。我们使用此结果不是为了提出该奖励，也不是为了声称它改进了接地，而是为了展示QA-EM、ROUGE-L和引文数量未能检测到这次大规模的ASQA重写干预。  

简而言之，“归因指标”命名了一系列捕捉不同构造（出处、主题相关性、人类判断的支持）的信号家族；合适的家族取决于构造，而在*答案归因*内部，没有指标能在未经过目标数据集验证的情况下跨数据集迁移。评估应报告它们针对的数据集和构造，并优先使用在该数据集上验证过的检查器，而不应将任何单一指标视为接地的通用代理。  

## 2 相关工作  

#### 正确性与忠实性。  
一个答案可能正确，但其引用并不支持其主张 (Rashkin et al., 2023; Liu et al., 2023) ——这是一种与事实正确性不同的忠实性差距 (Ji et al., 2023)，在长文本答案中尤为显著，因为精确匹配无法评分 (Fan et al., 2019)，并且由于上下文证据使用不均衡而恶化 (Liu et al., 2024)。  

#### 归因与引用质量。  
AIS (Rashkin et al., 2023) 形式化了源支持，审计发现流畅的答案通常包含无支持的引用 (Liu et al., 2023)。ALCE (Gao et al., 2023) 引入了基于NLI的引用召回率/精确度（与QAMPARI (Amouyal et al., 2023) 一起）；FActScore (Min et al., 2023) 将答案分解为原子事实；Attribute-First (Slobodkin et al., 2024) 和 LongCite (Zhang et al., 2024) 生成可归因文本；AttrScore (Yue et al., 2023) 和 RAGAS (Es et al., 2024) 使用LLM/蕴含模型判断支持。AttributionBench (Li et al., 2024) 对这些评估器与人类标签进行基准比较——但关键的是，仅针对*训练/LLM*评估器，而非我们在域内发现与人类标签有重叠置信区间的现成词法/嵌入基线。这些方法需要蕴含/LLM裁判或修改生成过程；我们的评分器包括一个确定性的句子单位评分器 (Reimers and Gurevych, 2019)，我们的贡献是跨数据集*审计*。  

#### 用于接地的强化学习。  
先前的工作通过奖励训练模型引用证据，从验证引用RLHF (Menick et al., 2022) 到引用奖励 (Huang et al., 2024)、门控充分性/弃权奖励 (Zhao et al., 2026) 和可验证奖励训练 (Sim et al., 2025)。这些方法*修复模型*；我们*诊断评估*，我们的零结果（§5）与它们报告说答案级指标难以移动的结论一致。  

#### 干扰项与鲁棒性。  
上下文干扰项导致大幅下降 (Lee et al., 2026)，特别是*高度语义相关*的干扰项 (Wu et al., 2024)，即使是在经过指令微调的模型中，接地也可能在对抗条件下失败 (Koneru et al., 2026)。我们的混淆证据测试（§3.1）是一个受控的段落排名实例。  

## 3 句子单位出处排名评分  

我们评估答案中每个句子与一组候选段落的*匹配*程度，用于构造(i)的出处排名诊断（不同于构造(ii)、(iii)的人类支持任务）。将答案分割为句子单位 \(u_1,\dots,u_m\)，将证据设为段落 \(p_1,\dots,p_k\)。对于单位 \(u\) 和段落 \(p\)，我们计算一个综合相关性评分：  

\[
s(u,p) = 0.40\,\mathrm{lex}(u,p) + 0.45\,\mathrm{sem}(u,p) + 0.10\,h(u) + 0.05\,c(u,p),
\]  

其中 \(\mathrm{lex}\) 是token Jaccard相似度，\(\mathrm{sem}\) 是句子变换器余弦相似度 (Reimers and Gurevych, 2019)（all-MiniLM-L6-v2），*答案提示* \(h(u)\) 是单位中黄金短答案的比例，*引用奖励* \(c(u,p)=1\) 当 \(u\) 引用 \(p\) 时。一个单位的评分是 \(\max_p s(u,p)\)。该评分是**无训练的**（仅使用一个小的冻结编码器）。评分是一个固定的*出处*诊断工具，用于构造(i)，**不是**一个提议的通用接地指标（在§4的人类支持任务上远非最佳），也**不是**本文的核心贡献——核心贡献是§4中带有标注的跨数据集审计。我们报告的是单个规范权重，而非调整后的版本。  

答案提示 \(h(u)\) 部分依赖于标签，但它不影响混淆排名：\(h(u)\) 在单位内是常数（因此不能重排该单位的候选段落），并且引用项 \(c(u,p)=0\) 贯穿始终，因为ASQA的黄金答案不包含内联引用。因此，混淆测试仅基于词法/语义进行排名，并且核心结果无需访问黄金标签（在下方进行了消融）。  

### 3.1 出处/主题性（构造i）  

第一个构造询问评分器是否能将答案句子路由到它来源的段落。在ASQA上，我们形成一个黄金参考与未适应模型的对比：黄金长文本答案与未适应Qwen2.5-3B-Instruct在示例的 \(\geq 2\) 个段落上生成的答案（623个开发示例；混淆测试使用更严格的 \(\geq 3\) 段落过滤器，339个）。¹ 两个小的ASQA检查（附录A）仅是*内部一致性*（循环标签），因此我们不予依赖。  
在保持短答案正确性大致相等的情况下（989...）

LLM归因指标能否迁移？跨数据集与构念的检索增强生成评估审计

相似文章

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

谁发生了偏移：系统还是裁判？LLM评估流水线中的随时有效归因方法

基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

归因合同：生成式语言模型中的特征归因

当无基准存在时：验证无真实标签的LLM安全评分比较

提交意见反馈