基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL 2026/05/12 04:00 论文

摘要

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集，研究了标准基准是否低估了大语言模型（LLM）的性能。研究发现，在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性，并表明针对容易产生歧义的任务，采用模型辅助的重新评估能产生更可靠的基准。

arXiv:2605.08462v1 公告类型：新发布摘要：幻觉问题在大语言模型（LLM）中依然是一个持续存在的挑战，特别是在基于上下文的设置中，如检索增强生成（RAG）和智能体（agentic）AI 系统。本研究聚焦于摘要任务中的上下文幻觉检测。我们通过比较原始基准标注与 Gemini 2.5 Flash 和 GPT-5 Mini 基于推理和片段（span）的预测，分析了 QAGS-C 和 SummEval 数据集。为了解决人工标注与大语言模型判断之间的系统性差异，我们让 2 位跨文化仲裁员参与人工仲裁流程，对所有存在冲突的样本进行了重新评估。经过重新评估后，QAGS-C 数据集上三方（人工、GPT 和 Gemini）的一致性提高了 6.38%，SummEval 数据集上提高了 7.62%。同样，模型准确率也有所提升，GPT 在 QAGS-C 上提高了 4.25%，在 SummEval 上提高了 2.34%，而 Gemini 分别提高了 8.51% 和 3.80%。值得注意的是，当大语言模型提供明确推理时，仲裁员经常支持模型的判断而非原始人工标注。人工仲裁员之间的一致性总体在 83% 到 87% 之间。这些发现表明，对于容易产生歧义的任务，单次标注可能是不够的，而模型辅助的重新评估能产生更可靠的基准。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 06:48

# 基准测试是否低估了 LLM 的性能？通过 LLM 优先的人为仲裁评估来评估幻觉检测
来源：https://arxiv.org/abs/2605.08462
查看 PDF (https://arxiv.org/pdf/2605.08462)

> 摘要：幻觉仍然是大型语言模型（LLMs）中持续存在的挑战，特别是在基于上下文的环境中，例如 RAG 和智能体（Agentic）AI 系统。本研究专注于摘要任务中的上下文幻觉检测。我们分析了 QAGS-C 和 SummEval 数据集，通过比较原始基准标注与 Gemini 2.5 Flash 和 GPT-5 Mini 基于推理和跨度（span）的预测结果来进行分析。为了解决人工标签与 LLM 判断之间的系统性分歧，我们通过两名跨文化仲裁员对存在冲突的样本进行了人工仲裁重新评估。经过重新评估后，三方一致性（人类、GPT 和 Gemini 之间）在 QAGS-C 上提高了 6.38%，在 SummEval 上提高了 7.62%。同样，模型准确率也得到了提升，GPT 在 QAGS-C 和 SummEval 上分别提高了 4.25% 和 2.34%，而 Gemini 分别提升了 8.51% 和 3.80%。值得注意的是，当 LLM 提供明确的推理过程时，仲裁员经常支持模型的判断而非原始的人工标注。整体人工仲裁员的一致性率在 83% 到 87% 之间。这些发现表明，对于容易产生歧义的任务，单次标注可能不足够，而模型辅助的重新评估能产生更可靠的基准。

## 提交历史

作者：İsmail Furkan Atasoy \[查看邮箱 (https://arxiv.org/show-email/14ee8f0e/2605.08462)\] **\[v1\]** 2026年5月8日 星期五 20:27:44 UTC \(530 KB\)

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

大语言模型真的知道自己不知道什么吗？内部状态主要反映知识回忆而非真实性

PRISM：探究大语言模型幻觉中的推理、指令与源记忆

HumanLLM：通过人类认知模式对大语言模型拟人化的基准测试与改进

理解LLM中新知识诱导的事实幻觉：分析与解释

提交意见反馈