FACTS基准测试套件：系统性评估大语言模型的事实性

Google DeepMind Blog 2025/12/09 11:29 工具

llm-evaluation factuality benchmark deepmind kaggle responsible-ai multimodal

摘要

Google DeepMind与Kaggle联合推出了FACTS基准测试套件，这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系，用于系统性衡量大语言模型的事实性。

借助FACTS基准测试套件，系统性评估大语言模型的事实性。

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:29

# FACTS Benchmark Suite：系统评估大语言模型的事实准确性来源：https://deepmind.google/blog/facts-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models/ 2025年12月9日责任与安全大语言模型（LLMs）正日益成为各类场景中信息传递的主要来源，因此确保其回答的事实准确性至关重要。为了持续改进模型在这一行业级挑战上的表现，我们需要更好地理解模型在哪些用例中难以提供准确回答，并更有效地衡量这些领域的事实性表现。 ## FACTS Benchmark Suite 今天，我们与 Kaggle 合作推出 **FACTS Benchmark Suite**（https://www.kaggle.com/benchmarks/google/facts/leaderboard）。该套件扩展了我们此前开发的 **FACTS Grounding Benchmark**（https://deepmind.google/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/）的工作，新增了三项事实性基准测试，包括： - **Parametric Benchmark**（https://www.kaggle.com/benchmarks/google/facts-parametric/leaderboard）：衡量模型在事实问答用例中准确调用内部知识的能力。 - **Search Benchmark**（https://www.kaggle.com/benchmarks/google/facts-search/leaderboard）：测试模型将搜索作为工具来检索信息并正确整合的能力。 - **Multimodal Benchmark**（https://www.kaggle.com/benchmarks/google/facts-multimodal/leaderboard）：测试模型对与输入图像相关的提示做出事实正确回答的能力。我们还将原始的 FACTS Grounding benchmark 更新为 **Grounding Benchmark - v2**（https://www.kaggle.com/benchmarks/google/facts-grounding/leaderboard），这是一个扩展后的基准测试，用于评估模型在给定提示上下文中提供有据可查回答的能力。每项基准测试都经过精心策划，共产生 3,513 个示例，今天我们将其公开发布。与之前的发布类似，我们遵循标准行业实践，保留一个未公开的评估集作为私有集。FACTS Benchmark Suite Score（简称 FACTS Score）是四项基准测试在公开集和私有集上准确率的平均值。Kaggle 将负责监督 FACTS Benchmark Suite 的管理工作，包括持有私有数据集、对领先的 LLM 进行基准测试，以及在公开排行榜上发布结果。有关 FACTS 评估方法的更多细节，请参阅我们的 [技术报告](https://storage.googleapis.com/deepmind-media/FACTS/FACTS_benchmark_suite_paper.pdf)。 ## 基准测试概览 ### Parametric Benchmark FACTS Parametric benchmark 评估模型在不借助网络搜索等外部工具的情况下准确回答事实性问题的能力。该基准测试中的所有问题都是基于用户兴趣的" trivia 风格"问题，可通过 Wikipedia（LLM 预训练的标准来源）回答。最终基准测试包含 1,052 个公开集项目和 1,052 个私有集项目。上下文领域分布（左）和答案类型分布（右），占 Parametric benchmark 总问题数的百分比。公开集中一个典型的提示会要求模型回答一个冷门话题的简单问题，例如："谁为《The Rockford Files》主题曲吹奏了口琴？" ### Search Benchmark 相比之下，FACTS Search benchmark 评估模型使用网络搜索工具回答问题的能力。该基准测试的设计初衷是让 LLM 即使能访问网络也难以应对，通常需要按顺序检索多个事实才能回答单个查询。所有模型使用相同的网络搜索工具，确保在隔离条件下测试模型能力，排除自定义网络检索设置的干扰因素。FACTS Search 包含 890 个公开集项目和 994 个私有集项目。上下文领域分布（左）和用户请求任务类型分布（右），占 Search benchmark 总提示数的百分比。以下公开集中的示例之所以被收录，是因为它需要从多个网页检索信息："在1960年夏季奥运会上击败 Vazik Kazarian 的英国拳击手、同样参加该届奥运会男子轻次中量级比赛的摩洛哥拳击手，以及同时参加1960年和1964年夏季奥运会的丹麦拳击手，这三人的出生年份之和是多少？" ### Multimodal Benchmark FACTS Multimodal benchmark 评估模型针对基于图像的问题生成事实准确文本的能力，这是现代多模态系统的关键能力。该任务需要整合视觉定位能力，即准确解读视觉输入并将其与内部或"参数化"世界知识相连接的能力。评估框架旨在确保回答既正确又完整。该基准测试包含 711 个公开集项目和 811 个私有集项目。图像分布（左）和问题类别分布（右），作为 Multimodal benchmark 的组成部分。例如，以下 Multimodal benchmark 公开集中的图像伴随提示："这只动物属于哪个属？" Multimodal benchmark 图像示例（图片来源：Racta apella by desertnaturalist, CC BY 4.0） ## 结果我们对领先的 LLM 进行了 FACTS Benchmark Suite 评估，其中包括更新后的 FACTS Grounding v2。下表列出了 15 款领先模型及其总体 FACTS 分数（后附四项单独基准测试的分数 breakdown：Grounding、Multimodal、Parametric 和 Search）。 Gemini 3 Pro 在总体表现上领先，FACTS Score 达到 68.8%。特别是，我们观察到从 Gemini 2 Pro 到 Gemini 3 Pro 在 Search 和 Parametric 维度上有显著提升，其中 FACTS Search 的错误率降低了 55%，FACTS Parametric 降低了 35%。FACTS Multimodal 的得分普遍最低。所有被评估模型的总体准确率均低于 70%，未来仍有相当大的提升空间。除 FACTS Benchmark Suite 之外，Gemini 在事实性方面的进步也体现在另一项事实性基准测试 [SimpleQA Verified](https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified) 中，从 Gemini 2.5 Pro 的 54.5% 准确率提升至 Gemini 3 Pro 的 72.1% 准确率。SimpleQA Verified 测试 LLM 在短回答上的参数化知识。 ## 展望未来尽管 LLM 事实性仍是持续研究的领域，但 FACTS Benchmark Suite 和 Gemini 3 Pro 的结果体现了 Google 长期致力于让信息普遍可及且有用。我们希望这项工作能激励对 LLM 事实性的深入研究，从而为用户所依赖的模型和产品带来更好、更准确的体验。 ### FACTS Grounding：评估大语言模型事实性的新基准 ### Gemini 3 开启智能新时代 ### Evals

FACTS基准测试套件：系统性评估大语言模型的事实性

相似文章

FACTS Grounding：评估大语言模型事实性的新基准

推出 SimpleQA

重新思考我们如何衡量AI智能

FINESSE-Bench：面向大语言模型金融领域知识与技术分析的分层基准测试套件

评估大语言模型在社交媒体分析中的能力：多任务探索

提交意见反馈