LLM归因指标能否迁移?跨数据集与构念的检索增强生成评估审计

arXiv cs.CL 论文

摘要

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。

arXiv:2606.23915v1 公告类型:新 摘要:实践中常将LLM检索增强生成中的归因自动指标视为可互换。我们对八种自动评分器进行了审计——包括词汇、嵌入和BERTScore基线,以及基于蕴含/接地训练的模型(clean和FEVER NLI,检查器MiniCheck)——涵盖三种评估构念(来源/主题性、生成答案归因和事实核查蕴含),探究是否有评分器能迁移:即在多数据集构念的每个数据集上,保持在最佳审计评分器的95%置信区间内。在人工标注覆盖最广的多数据集构念——生成答案归因(AttributionBench的四个源数据集,n=1,610,以及独立数据集HAGRID,n=2,150)中,没有评分器能迁移:各数据集上的指标排名发生反转(AttributedQA与LFQA的Kendall tau = -0.64,p = 0.031),一个在短声明AttributedQA上表现最佳(AUROC 0.90)的现成NLI评分器在长格式LFQA上性能骤降至AUROC 0.53(随机水平),而BERTScore胜出(0.91);这种反转并非长度或截断伪影。这种不稳定性带来了具体的决策成本:选择评估器的朴素“平均最佳”规则在留一数据集验证中失败(平均留出遗憾0.172 AUROC,比固定一个评分器更差),因此指标选择必须在目标数据集上验证,而非从其他数据集学习。基于提示的LLM评判器避免了自动评分器遭遇的随机水平崩塌(无LFQA崩溃),但并非始终最佳,成本高出约100倍,且非确定性——仅转移而非消除验证负担。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:43

# LLM归因指标能否迁移?跨数据集与跨构造审计检索增强生成评估  
来源:https://arxiv.org/html/2606.23915  

Tianyu Ding tianyd@amazon\.com 亚马逊云科技  
&Aditya Nannapaneni anannap@amazon\.com 亚马逊云科技  
&Juan Pablo De la Cruz Weinstein jcruam@amazon\.com 亚马逊云科技  

###### 摘要  

实践中常将LLM检索增强生成中归因的自动指标视为可互换。我们审计了八种自动评分器——词法、嵌入和BERTScore基线,以及蕴含/接地训练模型(clean和FEVER NLI、专用检查器MiniCheck)——涵盖三种评估构造(出处/主题性、生成答案归因和事实核查蕴含),探究是否有评分器能够*迁移*:即在某个多数据集构造的*每个*数据集上,都保持在最佳审计评分器的95%置信区间内。在人类标注覆盖最广的多数据集构造——生成答案归因(AttributionBench的四个源数据集,n=1610,以及独立的HAGRID,n=2150)——中,没有任何评分器满足这一条件:每个数据集的指标排名出现反转(AttributedQA与LFQA的Kendall τ=−0.64,p=0.031);一个现成的NLI评分器在短句版AttributedQA上表现最佳(AUROC 0.90),但在长文本LFQA上暴跌至AUROC 0.53(随机水平),而BERTScore则在LFQA上胜出(0.91);这种翻转并非由长度或截断伪影导致。这种不稳定性带来了具体的决策成本:一个天真的“平均最佳”规则来选择评估器,在“留一数据集”测试中*失败*(平均留出后悔度0.172 AUROC,不如固定使用单一评分器),因此指标选择必须在目标数据集上验证,而非从其他数据集学习而来。基于提示的LLM裁判避免了自动评分器所遭受的随机水平崩塌(在LFQA上未出现崩塌),但并非始终最优,成本高出约100倍,且非确定性——这仅是将验证负担转移,而非消除。  

# LLM归因指标能否迁移?跨数据集与跨构造审计检索增强生成评估  

Tianyu Ding tianyd@amazon\.com 亚马逊云科技  
Aditya Nannapaneni anannap@amazon\.com 亚马逊云科技  
Juan Pablo De la Cruz Weinstein jcruam@amazon\.com 亚马逊云科技  

## 1 引言  

检索增强语言模型越来越多地通过*接地*进行评估:即答案中的每个主张是否得到所提供的证据支持。日益增多的自动评分工具——词法重叠、句子嵌入相似度、NLI/蕴含——取代了人工接地判断,而实践者往往将它们互换使用,仿佛“归因指标提升了”在不同指标或基准下都意味着同一件事。我们所说的“LLM归因指标”是指评估LLM/RAG输出中归因的指标(词法、嵌入、NLI/检查器和基于提示的LLM裁判变体);我们核心审计的是更廉价的*自动*评分器,而基于提示的LLM裁判则作为边界案例。  

我们表明这种假设在两个层面上是不安全的。粗略来看,评估*构造*决定了哪种指标*家族*更为合适。更尖锐的是,*在*单一构造内部,最佳指标在其不同数据集上并不稳定,因此我们核心审计中的任何自动评分器都无法跨构造的数据集迁移。具体来说,我们审计了八种指标——现成的、未经过归因微调的评分器(词法Jaccard、MiniLM和MPNet余弦相似度、它们的固定混合、BERTScore)以及经过训练的蕴含/接地模型(clean-MNLI NLI、FEVER NLI和专用检查器MiniCheck (Tang et al., 2024));在出处排名任务上使用了词法/语义/混合/NLI子集——涵盖文献中常混淆的三种评估构造:  
(i) 出处/主题性——评分器是否能将相关段落排在首位(ASQA (Stelmakh et al., 2022)、MS MARCO (Nguyen et al., 2016)、HotpotQA (Yang et al., 2018);段落排名标签,而非句子/主张级别的支持);  
(ii) 生成答案归因——评分器是否能预测*人类*对生成答案句子是否受其引用证据支持的判断(AttributionBench (Li et al., 2024));  
(iii) 事实核查蕴含——评分器是否能预测*人类*对简短编辑主张的支持标签(VitaminC (Schuster et al., 2021))。  

在粗略的跨构造层面,构造决定了合适的指标家族,在审计的基准上(表2):每个出处门控的现成相关性评分最佳结果达到0.73–0.97的top-1准确率(与MS MARCO/HotpotQA上的NLI有重叠的bootstrap置信区间,但NLI在ASQA上不可靠,为0.585),而蕴含训练模型在事实核查主张上优于所有无微调基线(VitaminC,0.81–0.89 vs. 表面约0.60 AUROC)。  

更尖锐的发现出现在*生成答案归因*内部:在AttributionBench的四个构成数据集上,最佳指标并不稳定(每个数据集的指标排名出现反转,AttributedQA与LFQA的Kendall τ=−0.64,p=0.031)。一个简单的NLI评分器在AttributedQA上最佳(AUROC 0.90),但在LFQA上降至0.53(随机水平=0.50),而BERTScore在LFQA上达到0.91——但在*不同的*长文本集HAGRID上,同一个NLI评分器又成为最佳(0.80),因此失败是数据集特有的,不能仅用长文本*答案*来解释(长*证据*仍是一个候选因素;§4)。  

这之所以重要,是因为实践者会默默地将在一个构造或一个基准上的成功,解读为接地能力的普遍证据。先前的基准测试工作已经确定自动归因指标与人类存在分歧,并且没有单一指标在任何地方都胜出 (Honovich et al., 2022; Dziri et al., 2022; Yue et al., 2023; Li et al., 2024);在那种定性“它们不一致”的基础上,我们的贡献是与决策相关的:一个可操作*的可移植性*标准,一个量化默认选择代价的“留一数据集”*后悔度*,以及一个失败的朴素跨数据集选择器(0.172后悔度)——这是一种验证纪律,基于受控审计,带有域内归因和事实核查方面的人类标签,并与代理标记的出处(机制发现超出范围)清晰分离。  

这是一篇评估资源/警示性论文,而非新指标论文。我们的核心贡献是跨数据集评估器选择审计;其余是支持性诊断和边界探测:  

- • **跨数据集审计**(§4,表2)表明构造大致决定了合适的指标家族,但*在*域内答案归因中,没有单一*自动*评分器在所有数据集上持续接近最佳(排名不一致,Kendall W=0.07,p=0.029):一个原始MNLI评分器在AttributedQA上最佳(0.90),但在LFQA数据集上AUROC为0.53(随机水平=0.50)——尽管在独立的长文本HAGRID集上又成为最佳(0.80)——而专用检查器(MiniCheck)在测试的八个自动评分器中具有最低的平均“留一数据集”后悔度,但仍留下了可测量的每个数据集后悔度(平均0.044 AUROC,CI [0.014, 0.072])。  
- • 作为支持性诊断,一个**无训练句子单位出处/主题性诊断**和**混淆证据压力测试协议**(§3, §3.1):在混淆证据下(来自其他示例的高重叠干扰项),语义成分能够区分共出处段落和那些词法重叠失效的干扰项。我们将其与现成的NLI蕴含头进行基准比较,发现NLI的表现在不同基准上有所不同,并非始终最佳——这是一个构造(i)的诊断,而非通用接地指标。  
- • **验证纪律**(§4):一个天真的“平均最佳”选择规则在“留一数据集”测试中失败(平均后悔度0.172,比测试中固定使用最低平均后悔度指标更差),因此指标选择必须在目标数据集上验证;以及跨家族**LLM标注探测**(Opus 4.8 + GPT-5.4,n=160)显示模型间一致性高,但与人类的一致性仅为中等且依赖于数据集——仅在最简单的(短事实)数据集上可作为有条件的代理,限制了现成LLM标签替代的使用。  
- • 最后,一个**边界指标敏感性探测**(§5):一个结构化的GRPO奖励重写了大部分输出,但在3B或7B规模下,未改变任何确定性答案级指标(QA-EM、ROUGE-L、引文数量)。我们使用此结果不是为了提出该奖励,也不是为了声称它改进了接地,而是为了展示QA-EM、ROUGE-L和引文数量未能检测到这次大规模的ASQA重写干预。  

简而言之,“归因指标”命名了一系列捕捉不同构造(出处、主题相关性、人类判断的支持)的信号家族;合适的家族取决于构造,而在*答案归因*内部,没有指标能在未经过目标数据集验证的情况下跨数据集迁移。评估应报告它们针对的数据集和构造,并优先使用在该数据集上验证过的检查器,而不应将任何单一指标视为接地的通用代理。  

## 2 相关工作  

#### 正确性与忠实性。  
一个答案可能正确,但其引用并不支持其主张 (Rashkin et al., 2023; Liu et al., 2023) ——这是一种与事实正确性不同的忠实性差距 (Ji et al., 2023),在长文本答案中尤为显著,因为精确匹配无法评分 (Fan et al., 2019),并且由于上下文证据使用不均衡而恶化 (Liu et al., 2024)。  

#### 归因与引用质量。  
AIS (Rashkin et al., 2023) 形式化了源支持,审计发现流畅的答案通常包含无支持的引用 (Liu et al., 2023)。ALCE (Gao et al., 2023) 引入了基于NLI的引用召回率/精确度(与QAMPARI (Amouyal et al., 2023) 一起);FActScore (Min et al., 2023) 将答案分解为原子事实;Attribute-First (Slobodkin et al., 2024) 和 LongCite (Zhang et al., 2024) 生成可归因文本;AttrScore (Yue et al., 2023) 和 RAGAS (Es et al., 2024) 使用LLM/蕴含模型判断支持。AttributionBench (Li et al., 2024) 对这些评估器与人类标签进行基准比较——但关键的是,仅针对*训练/LLM*评估器,而非我们在域内发现与人类标签有重叠置信区间的现成词法/嵌入基线。这些方法需要蕴含/LLM裁判或修改生成过程;我们的评分器包括一个确定性的句子单位评分器 (Reimers and Gurevych, 2019),我们的贡献是跨数据集*审计*。  

#### 用于接地的强化学习。  
先前的工作通过奖励训练模型引用证据,从验证引用RLHF (Menick et al., 2022) 到引用奖励 (Huang et al., 2024)、门控充分性/弃权奖励 (Zhao et al., 2026) 和可验证奖励训练 (Sim et al., 2025)。这些方法*修复模型*;我们*诊断评估*,我们的零结果(§5)与它们报告说答案级指标难以移动的结论一致。  

#### 干扰项与鲁棒性。  
上下文干扰项导致大幅下降 (Lee et al., 2026),特别是*高度语义相关*的干扰项 (Wu et al., 2024),即使是在经过指令微调的模型中,接地也可能在对抗条件下失败 (Koneru et al., 2026)。我们的混淆证据测试(§3.1)是一个受控的段落排名实例。  

## 3 句子单位出处排名评分  

我们评估答案中每个句子与一组候选段落的*匹配*程度,用于构造(i)的出处排名诊断(不同于构造(ii)、(iii)的人类支持任务)。将答案分割为句子单位 \(u_1,\dots,u_m\),将证据设为段落 \(p_1,\dots,p_k\)。对于单位 \(u\) 和段落 \(p\),我们计算一个综合相关性评分:  

\[
s(u,p) = 0.40\,\mathrm{lex}(u,p) + 0.45\,\mathrm{sem}(u,p) + 0.10\,h(u) + 0.05\,c(u,p),
\]  

其中 \(\mathrm{lex}\) 是token Jaccard相似度,\(\mathrm{sem}\) 是句子变换器余弦相似度 (Reimers and Gurevych, 2019)(all-MiniLM-L6-v2),*答案提示* \(h(u)\) 是单位中黄金短答案的比例,*引用奖励* \(c(u,p)=1\) 当 \(u\) 引用 \(p\) 时。一个单位的评分是 \(\max_p s(u,p)\)。该评分是**无训练的**(仅使用一个小的冻结编码器)。评分是一个固定的*出处*诊断工具,用于构造(i),**不是**一个提议的通用接地指标(在§4的人类支持任务上远非最佳),也**不是**本文的核心贡献——核心贡献是§4中带有标注的跨数据集审计。我们报告的是单个规范权重,而非调整后的版本。  

答案提示 \(h(u)\) 部分依赖于标签,但它不影响混淆排名:\(h(u)\) 在单位内是常数(因此不能重排该单位的候选段落),并且引用项 \(c(u,p)=0\) 贯穿始终,因为ASQA的黄金答案不包含内联引用。因此,混淆测试仅基于词法/语义进行排名,并且核心结果无需访问黄金标签(在下方进行了消融)。  

### 3.1 出处/主题性(构造i)  

第一个构造询问评分器是否能将答案句子路由到它来源的段落。在ASQA上,我们形成一个黄金参考与未适应模型的对比:黄金长文本答案与未适应Qwen2.5-3B-Instruct在示例的 \(\geq 2\) 个段落上生成的答案(623个开发示例;混淆测试使用更严格的 \(\geq 3\) 段落过滤器,339个)。¹ 两个小的ASQA检查(附录A)仅是*内部一致性*(循环标签),因此我们不予依赖。  
在保持短答案正确性大致相等的情况下(989...)

相似文章

归因合同:生成式语言模型中的特征归因

arXiv cs.LG

本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。

当无基准存在时:验证无真实标签的LLM安全评分比较

Hugging Face Daily Papers

本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。