精确性不等于忠实性:使用完整Oracle进行覆盖感知的接地生成评估
摘要
本文指出了无参考忠实性指标中的一个盲点:它们只衡量精确性(即声明是否得到支持),而不衡量召回率(即相关事实的覆盖程度)。作者引入了一种使用Formula 1遥测数据和天气数据的完整Oracle评估,表明高精确度模型往往覆盖不佳,并提出了一个组合指标。
查看缓存全文
缓存时间: 2026/06/10 00:08
论文页面 - 精确率≠忠实度:基于完全Oracle的覆盖感知评估用于有源生成
来源:https://huggingface.co/papers/2606.09376
摘要
无参考的忠实度指标存在一个盲点:它们只测量精确率,从而奖励弃权行为;在确定性领域,完备性使得能够同时测量精确率和召回率,并揭示出高精确率模型往往事实覆盖率很差。
无参考的忠实度指标(https://huggingface.co/papers?q=faithfulness%20metrics)会逐一验证模型生成的每个原子声明是否与事实相符,并越来越多地被用于评估有源生成(https://huggingface.co/papers?q=grounded%20generation)。我们指出这些指标存在共同盲点:它们只测量精确率(https://huggingface.co/papers?q=precision)——即陈述的声明是否得到支持?——因此会奖励弃权行为,因为模型几乎不说什么就能获得近乎完美的忠实度分数。我们利用F1赛车遥测数据使这一点可量化——该领域以确定性方式推导出策略性事实,且至关重要的是,这些事实是完整的:对于每个决策,我们都能知道所有相关事实的完整集合。这种完备性——在开放域忠实度基准中缺失——让我们能够同时精确测量召回率(https://huggingface.co/papers?q=recall)(相关事实的覆盖度)和精确率(https://huggingface.co/papers?q=precision)。在一个涵盖150场比赛、7253个决策实例的多语言(英语/西班牙语/葡萄牙语)基准上,精确率最高的前沿模型覆盖了不到一半的相关事实,并且按F1值排名垫底,因此引入覆盖度要求会重排系统顺序;同样效果在第二个完整Oracle领域(NOAA天气预报)中也得到复现。一次提示消融实验表明,低覆盖率并非由于提示不足:明确要求模型详尽回答并不能缩小差距。我们将忠实度与覆盖度整合为一个分数,验证了该指标(受控扰动(https://huggingface.co/papers?q=controlled%20perturbation);无模型正则表达式提取器与跨族LLM提取器之间的一致性,系统级Spearman 1.0),并提供了一种无需参考的验证器引导生成(https://huggingface.co/papers?q=verifier-guided%20generation)方法,可同时改进精确率和召回率。我们开源了基准数据集、结构化标注、指标、基线以及交互式演示。
查看arXiv页面(https://arxiv.org/abs/2606.09376)查看PDF(https://arxiv.org/pdf/2606.09376)项目页面(https://pitwall.jsantillana.com/)GitHub0(https://github.com/vectrayx/precision-is-not-faithfulness)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09376)
在您的代理中获取此论文:
hf papers read 2606\.09376
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
暂无模型关联此论文
请在模型README.md中引用arxiv.org/abs/2606.09376以在此页面建立链接。
引用本论文的数据集0
暂无数据集关联此论文
请在数据集README.md中引用arxiv.org/abs/2606.09376以在此页面建立链接。
引用本论文的Space1
包含本论文的收藏集0
暂未包含本论文的收藏集
请将本论文添加至收藏集(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
忠实性度量并不衡量忠实性:基于真实标注的元评估
本文介绍了BonaFide基准,包含来自13个任务和10个模型的3,066个标注的思维链示例,并系统评估了忠实性度量,结果表明大多数度量表现接近随机,且在可靠性和效率方面存在显著局限。
测量AI的忠实度——无论好坏
本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。
面向检索增强生成输出的忠实性感知不确定性量化
本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。
面向基础模型综合评估的细粒度基准生成
一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。
对于让AI代理发挥作用,反馈系统比模型更重要吗?
讨论反馈系统(静态分析、覆盖率工具、性能分析)比选择LLM对于让AI代理发挥效用更为关键,并以Oracle为GraalVM Native Image反射元数据生成测试的工作为例进行说明。