精确性不等于忠实性:使用完整Oracle进行覆盖感知的接地生成评估

Hugging Face Daily Papers 论文

摘要

本文指出了无参考忠实性指标中的一个盲点:它们只衡量精确性(即声明是否得到支持),而不衡量召回率(即相关事实的覆盖程度)。作者引入了一种使用Formula 1遥测数据和天气数据的完整Oracle评估,表明高精确度模型往往覆盖不佳,并提出了一个组合指标。

无参考忠实性指标会验证模型生成的每个原子声明是否与真实数据相符,并且越来越多地被用于评估接地生成。我们指出它们存在一个共同的盲点:它们只衡量精确性——即声明是否得到支持?——因此奖励沉默,因为一个模型如果几乎不说什么,就能获得近乎完美的忠实性分数。我们利用Formula 1遥测数据使这一点可测量,在这个领域中,策略性真值由确定性推导而出,并且至关重要的是,它是完全的:对于每个决策,我们都知道所有相关事实的完整集合。这种完整性——在开放域的忠实性基准中是不存在的——使我们能够精确地衡量召回率(相关事实的覆盖程度)以及精确性。在一个跨越150场比赛的7,253个决策实例的多语言(英语/西班牙语/葡萄牙语)基准上,最精确的前沿模型覆盖了不到一半的相关事实,并且在F1分数上排名最后,因此要求覆盖性会重新排序系统;同样的效果在第二个完整Oracle领域(NOAA天气预报)中再次出现。提示消融实验表明,低覆盖性并非提示不足的人为现象:明确要求模型做到全面并不能弥补差距。我们将忠实性与覆盖性结合成一个单一分数,验证了该指标(受控扰动;无模型正则表达式提取器和跨家族LLM提取器之间的一致性,系统级Spearman相关为1.0),并提出了一种验证器引导的生成方法,该方法无需参考即可提高精确性和召回率。我们发布了该基准、结构化注释、指标、基线方法和一个交互式演示。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:08

论文页面 - 精确率≠忠实度:基于完全Oracle的覆盖感知评估用于有源生成

来源:https://huggingface.co/papers/2606.09376

摘要

无参考的忠实度指标存在一个盲点:它们只测量精确率,从而奖励弃权行为;在确定性领域,完备性使得能够同时测量精确率和召回率,并揭示出高精确率模型往往事实覆盖率很差。

无参考的忠实度指标(https://huggingface.co/papers?q=faithfulness%20metrics)会逐一验证模型生成的每个原子声明是否与事实相符,并越来越多地被用于评估有源生成(https://huggingface.co/papers?q=grounded%20generation)。我们指出这些指标存在共同盲点:它们只测量精确率(https://huggingface.co/papers?q=precision)——即陈述的声明是否得到支持?——因此会奖励弃权行为,因为模型几乎不说什么就能获得近乎完美的忠实度分数。我们利用F1赛车遥测数据使这一点可量化——该领域以确定性方式推导出策略性事实,且至关重要的是,这些事实是完整的:对于每个决策,我们都能知道所有相关事实的完整集合。这种完备性——在开放域忠实度基准中缺失——让我们能够同时精确测量召回率(https://huggingface.co/papers?q=recall)(相关事实的覆盖度)和精确率(https://huggingface.co/papers?q=precision)。在一个涵盖150场比赛、7253个决策实例的多语言(英语/西班牙语/葡萄牙语)基准上,精确率最高的前沿模型覆盖了不到一半的相关事实,并且按F1值排名垫底,因此引入覆盖度要求会重排系统顺序;同样效果在第二个完整Oracle领域(NOAA天气预报)中也得到复现。一次提示消融实验表明,低覆盖率并非由于提示不足:明确要求模型详尽回答并不能缩小差距。我们将忠实度与覆盖度整合为一个分数,验证了该指标(受控扰动(https://huggingface.co/papers?q=controlled%20perturbation);无模型正则表达式提取器与跨族LLM提取器之间的一致性,系统级Spearman 1.0),并提供了一种无需参考的验证器引导生成(https://huggingface.co/papers?q=verifier-guided%20generation)方法,可同时改进精确率和召回率。我们开源了基准数据集、结构化标注、指标、基线以及交互式演示。

查看arXiv页面(https://arxiv.org/abs/2606.09376)查看PDF(https://arxiv.org/pdf/2606.09376)项目页面(https://pitwall.jsantillana.com/)GitHub0(https://github.com/vectrayx/precision-is-not-faithfulness)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09376)

在您的代理中获取此论文:

hf papers read 2606\.09376

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

暂无模型关联此论文

请在模型README.md中引用arxiv.org/abs/2606.09376以在此页面建立链接。

引用本论文的数据集0

暂无数据集关联此论文

请在数据集README.md中引用arxiv.org/abs/2606.09376以在此页面建立链接。

引用本论文的Space1

包含本论文的收藏集0

暂未包含本论文的收藏集

请将本论文添加至收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

测量AI的忠实度——无论好坏

Reddit r/AI_Agents

本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。

面向检索增强生成输出的忠实性感知不确定性量化

arXiv cs.CL

本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。

面向基础模型综合评估的细粒度基准生成

arXiv cs.LG

一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。