FACTS基准测试套件:系统性评估大语言模型的事实性
摘要
Google DeepMind与Kaggle联合推出了FACTS基准测试套件,这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系,用于系统性衡量大语言模型的事实性。
借助FACTS基准测试套件,系统性评估大语言模型的事实性。
查看缓存全文
缓存时间:
2026/05/08 09:29
# FACTS Benchmark Suite:系统评估大语言模型的事实准确性
来源:https://deepmind.google/blog/facts-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models/
2025年12月9日 责任与安全
大语言模型(LLMs)正日益成为各类场景中信息传递的主要来源,因此确保其回答的事实准确性至关重要。
为了持续改进模型在这一行业级挑战上的表现,我们需要更好地理解模型在哪些用例中难以提供准确回答,并更有效地衡量这些领域的事实性表现。
## FACTS Benchmark Suite
今天,我们与 Kaggle 合作推出 **FACTS Benchmark Suite**(https://www.kaggle.com/benchmarks/google/facts/leaderboard)。该套件扩展了我们此前开发的 **FACTS Grounding Benchmark**(https://deepmind.google/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/)的工作,新增了三项事实性基准测试,包括:
- **Parametric Benchmark**(https://www.kaggle.com/benchmarks/google/facts-parametric/leaderboard):衡量模型在事实问答用例中准确调用内部知识的能力。
- **Search Benchmark**(https://www.kaggle.com/benchmarks/google/facts-search/leaderboard):测试模型将搜索作为工具来检索信息并正确整合的能力。
- **Multimodal Benchmark**(https://www.kaggle.com/benchmarks/google/facts-multimodal/leaderboard):测试模型对与输入图像相关的提示做出事实正确回答的能力。
我们还将原始的 FACTS Grounding benchmark 更新为 **Grounding Benchmark - v2**(https://www.kaggle.com/benchmarks/google/facts-grounding/leaderboard),这是一个扩展后的基准测试,用于评估模型在给定提示上下文中提供有据可查回答的能力。
每项基准测试都经过精心策划,共产生 3,513 个示例,今天我们将其公开发布。与之前的发布类似,我们遵循标准行业实践,保留一个未公开的评估集作为私有集。FACTS Benchmark Suite Score(简称 FACTS Score)是四项基准测试在公开集和私有集上准确率的平均值。Kaggle 将负责监督 FACTS Benchmark Suite 的管理工作,包括持有私有数据集、对领先的 LLM 进行基准测试,以及在公开排行榜上发布结果。有关 FACTS 评估方法的更多细节,请参阅我们的 [技术报告](https://storage.googleapis.com/deepmind-media/FACTS/FACTS_benchmark_suite_paper.pdf)。
## 基准测试概览
### Parametric Benchmark
FACTS Parametric benchmark 评估模型在不借助网络搜索等外部工具的情况下准确回答事实性问题的能力。该基准测试中的所有问题都是基于用户兴趣的" trivia 风格"问题,可通过 Wikipedia(LLM 预训练的标准来源)回答。最终基准测试包含 1,052 个公开集项目和 1,052 个私有集项目。
上下文领域分布(左)和答案类型分布(右),占 Parametric benchmark 总问题数的百分比。
公开集中一个典型的提示会要求模型回答一个冷门话题的简单问题,例如:"谁为《The Rockford Files》主题曲吹奏了口琴?"
### Search Benchmark
相比之下,FACTS Search benchmark 评估模型使用网络搜索工具回答问题的能力。该基准测试的设计初衷是让 LLM 即使能访问网络也难以应对,通常需要按顺序检索多个事实才能回答单个查询。所有模型使用相同的网络搜索工具,确保在隔离条件下测试模型能力,排除自定义网络检索设置的干扰因素。FACTS Search 包含 890 个公开集项目和 994 个私有集项目。
上下文领域分布(左)和用户请求任务类型分布(右),占 Search benchmark 总提示数的百分比。
以下公开集中的示例之所以被收录,是因为它需要从多个网页检索信息:"在1960年夏季奥运会上击败 Vazik Kazarian 的英国拳击手、同样参加该届奥运会男子轻次中量级比赛的摩洛哥拳击手,以及同时参加1960年和1964年夏季奥运会的丹麦拳击手,这三人的出生年份之和是多少?"
### Multimodal Benchmark
FACTS Multimodal benchmark 评估模型针对基于图像的问题生成事实准确文本的能力,这是现代多模态系统的关键能力。
该任务需要整合视觉定位能力,即准确解读视觉输入并将其与内部或"参数化"世界知识相连接的能力。评估框架旨在确保回答既正确又完整。该基准测试包含 711 个公开集项目和 811 个私有集项目。
图像分布(左)和问题类别分布(右),作为 Multimodal benchmark 的组成部分。
例如,以下 Multimodal benchmark 公开集中的图像伴随提示:"这只动物属于哪个属?"
Multimodal benchmark 图像示例(图片来源:Racta apella by desertnaturalist, CC BY 4.0)
## 结果
我们对领先的 LLM 进行了 FACTS Benchmark Suite 评估,其中包括更新后的 FACTS Grounding v2。
下表列出了 15 款领先模型及其总体 FACTS 分数(后附四项单独基准测试的分数 breakdown:Grounding、Multimodal、Parametric 和 Search)。
Gemini 3 Pro 在总体表现上领先,FACTS Score 达到 68.8%。特别是,我们观察到从 Gemini 2 Pro 到 Gemini 3 Pro 在 Search 和 Parametric 维度上有显著提升,其中 FACTS Search 的错误率降低了 55%,FACTS Parametric 降低了 35%。FACTS Multimodal 的得分普遍最低。所有被评估模型的总体准确率均低于 70%,未来仍有相当大的提升空间。
除 FACTS Benchmark Suite 之外,Gemini 在事实性方面的进步也体现在另一项事实性基准测试 [SimpleQA Verified](https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified) 中,从 Gemini 2.5 Pro 的 54.5% 准确率提升至 Gemini 3 Pro 的 72.1% 准确率。SimpleQA Verified 测试 LLM 在短回答上的参数化知识。
## 展望未来
尽管 LLM 事实性仍是持续研究的领域,但 FACTS Benchmark Suite 和 Gemini 3 Pro 的结果体现了 Google 长期致力于让信息普遍可及且有用。我们希望这项工作能激励对 LLM 事实性的深入研究,从而为用户所依赖的模型和产品带来更好、更准确的体验。
### FACTS Grounding:评估大语言模型事实性的新基准
### Gemini 3 开启智能新时代
### Evals
相似文章
Google DeepMind Blog
DeepMind推出FACTS Grounding,这是一个包含1,719个示例的全面基准测试,用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜,用于追踪LLM在事实准确性和事实依据任务上的表现。
OpenAI Blog
OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。
Google DeepMind Blog
Google DeepMind和Kaggle推出了Kaggle Game Arena,一个开源的AI基准测试平台,让大型语言模型在策略游戏中进行对抗,从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号,克服了传统基准测试的局限性。
arXiv cs.CL
本文介绍了FINESSE-Bench,一个包含八个专业基准、共3,993个问题的套件,用于对大语言模型进行金融能力的分层评估,涵盖专业认证主题与应用交易任务。
arXiv cs.CL
犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。