FACTS Grounding:评估大语言模型事实性的新基准
摘要
DeepMind推出FACTS Grounding,这是一个包含1,719个示例的全面基准测试,用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜,用于追踪LLM在事实准确性和事实依据任务上的表现。
我们的综合基准测试和在线排行榜提供了一个急需的衡量方法,用于评估大语言模型在提供的源材料中进行事实依据的准确性,以及避免幻觉的能力
查看缓存全文
缓存时间: 2026/04/20 14:54
# FACTS 基准:评估大型语言模型事实性的新基准
来源:https://deepmind.google/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/
2024年12月17日 | 责任与安全
我们的综合基准和在线排行榜提供了一种迫切需要的措施,用于评估大型语言模型在多大程度上能够基于提供的源材料来支撑其回应,并避免产生幻觉。
大型语言模型(LLM)正在改变我们获取信息的方式,但它们在事实准确性方面仍存在不足。特别是在处理复杂输入时,它们可能会"幻觉"出虚假信息。这反过来会削弱人们对大型语言模型的信任,并限制它们在现实世界中的应用。
今天,我们推出了 FACTS Grounding(https://goo.gle/FACTS_paper),这是一个用于评估大型语言模型能力的综合基准。该基准衡量的是大型语言模型生成的回应不仅在事实上准确,而且足够详细以满足用户查询的程度。
我们希望我们的基准能够促进整个行业在事实性和基础性方面的进步。为了跟踪进展,我们还在 Kaggle 上推出了 FACTS 排行榜(http://www.kaggle.com/facts-leaderboard)。我们已经使用 FACTS Grounding 测试了领先的大型语言模型,并用其基础得分填充了初始排行榜。随着该领域的推进,我们将持续维护和更新排行榜。
当前排行榜排名
## FACTS Grounding 数据集
为了准确评估任何给定大型语言模型的事实性和基础性,FACTS Grounding 数据集包含 1,719 个示例,每个示例都精心设计,需要基于提供的上下文文档的长篇幅回应。每个示例包含一个文档、要求大型语言模型仅引用提供的文档的系统指令,以及相应的用户请求。
FACTS Grounding 数据集中的一个示例
所有示例分为"公开"集合(860 个)和"私密"集合(859 个)。我们今天发布了公开集合(http://www.kaggle.com/datasets/deepmind/facts-grounding-examples),以便任何人都可以用它来评估大型语言模型。当然,我们知道基准污染和排行榜作弊是需要防范的重要问题,因此遵循行业标准做法,我们将私密评估集合保留。FACTS 排行榜分数是公开集和私密集两个集合上性能的平均值。
为了确保输入的多样性,FACTS Grounding 示例包括长度各异的文档,最大长度为 32,000 个 token(大约 20,000 字),涵盖金融、技术、零售、医学和法律等领域。用户请求同样广泛,包括总结、问答生成和重写任务的请求。我们没有包含任何可能需要创意、数学或复杂推理的示例——这些能力可能需要模型除了基础性之外还要应用更高级的推理。
## 由领先大型语言模型进行的集体判断
要在给定的示例中成功,大型语言模型必须综合文档中的复杂信息,生成既能全面回答用户请求,又完全可溯源于该文档的长篇幅回应。
FACTS Grounding 使用三个前沿大型语言模型判断器自动评估模型回应——即 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet。我们选择了不同判断器的组合,以减轻判断器对其自身模型族产生的回应给予更高分数的任何潜在偏差。自动判断模型对保留的测试集进行了全面评估,以找到最佳性能的判断提示模板,并验证与人类评分者的一致性。
每个 FACTS Grounding 示例通过两个阶段进行判断。首先,评估回应的资格,如果回应没有充分解决用户的请求,则不符合资格。其次,如果回应完全基于提供的文档中包含的信息,没有幻觉,则将其判断为事实准确。
由多个人工智能判断模型分别评估给定大型语言模型回应的资格和基础准确性后,结果随后被汇总以确定该大型语言模型是否成功处理了该示例。总体基础任务的最终得分是所有示例上所有判断模型得分的平均值。在我们的论文(https://goo.gle/FACTS_paper)中查找有关我们 FACTS Grounding 评估方法的更多详细信息。
事实正确但未能正确解决用户请求的回应在基准示例中失败。这里我们看到三个自动大型语言模型判断器认为不符合资格的模型回应实例。
## FACTS Grounding 将继续演进
我们意识到基准可能会很快被进展所超越,所以推出 FACTS Grounding 基准和排行榜只是个开始。事实性和基础性是将塑造大型语言模型和更广泛人工智能系统未来成功和有用性的关键因素之一,我们的目标是随着该领域的进步,不断增长和迭代 FACTS Grounding,持续提高门槛。
我们鼓励人工智能社区参与 FACTS Grounding(http://www.kaggle.com/facts-leaderboard/discussion),在开放的示例集上评估他们的模型,或提交他们的模型进行评估。我们相信,全面的基准测试方法,加上持续的研究和开发,将继续改进人工智能系统。
**致谢**
FACTS 是 Google DeepMind 和 Google Research 之间的合作。FACTS Grounding 由以下人员领导:Alon Jacovi、Andrew Wang、Chris Alberti、Connie Tao、Dipanjan Das、Jon Lipovetz、Kate Olszewska、Lukas Haas、Michelle Liu 和 Nate Keating。
我们还非常感谢以下人员的贡献:Adam Bloniarz、Carl Saroufim、Corey Fry、Dror Marcus、Doron Kukliansky、Gaurav Singh Tomar、James Swirhun、Jinwei Xing、Lily Wang、Madhu Gurumurthy、Michael Aaron、Moran Ambar、Rachana Fellinger、Rui Wang、Zizhao Zhang 和 Sasha Goldshtein。
我们还要感谢 Avinatan Hassidim、D. Sculley、Fernando Pereira、Koray Kavukcuoglu、Slav Petrov、Ya Xu 和 Yossi Matias 的持续支持。
### FACTS 基准套件:系统地评估大型语言模型的事实性
### 评估
相似文章
FACTS基准测试套件:系统性评估大语言模型的事实性
Google DeepMind与Kaggle联合推出了FACTS基准测试套件,这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系,用于系统性衡量大语言模型的事实性。
推出 SimpleQA
OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。
通过一致性驱动的强化学习提升跨语言事实召回
本文介绍了PolyFact,一个大规模多语言事实问答数据集,并展示了通过GRPO的强化学习相比监督微调能显著提升LLM的跨语言事实一致性,通过重组多语言表示。
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。
从文章到前提:构建 PrimeFacts,一种用于事实核查证据的提取方法论与资源
本文介绍了 PrimeFacts,这是一种利用大语言模型从事实核查文章中提取细粒度证据的方法论与资源。所提取的前提将证据检索和声明验证的性能提高了多达 30%(在 MRR 指标上)以及 10-20 个百分点(在 Macro-F1 指标上)。