基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL 论文

摘要

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

arXiv:2605.08462v1 公告类型:新发布 摘要:幻觉问题在大语言模型(LLM)中依然是一个持续存在的挑战,特别是在基于上下文的设置中,如检索增强生成(RAG)和智能体(agentic)AI 系统。本研究聚焦于摘要任务中的上下文幻觉检测。我们通过比较原始基准标注与 Gemini 2.5 Flash 和 GPT-5 Mini 基于推理和片段(span)的预测,分析了 QAGS-C 和 SummEval 数据集。为了解决人工标注与大语言模型判断之间的系统性差异,我们让 2 位跨文化仲裁员参与人工仲裁流程,对所有存在冲突的样本进行了重新评估。经过重新评估后,QAGS-C 数据集上三方(人工、GPT 和 Gemini)的一致性提高了 6.38%,SummEval 数据集上提高了 7.62%。同样,模型准确率也有所提升,GPT 在 QAGS-C 上提高了 4.25%,在 SummEval 上提高了 2.34%,而 Gemini 分别提高了 8.51% 和 3.80%。值得注意的是,当大语言模型提供明确推理时,仲裁员经常支持模型的判断而非原始人工标注。人工仲裁员之间的一致性总体在 83% 到 87% 之间。这些发现表明,对于容易产生歧义的任务,单次标注可能是不够的,而模型辅助的重新评估能产生更可靠的基准。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:48

# 基准测试是否低估了 LLM 的性能?通过 LLM 优先的人为仲裁评估来评估幻觉检测
来源:https://arxiv.org/abs/2605.08462
查看 PDF (https://arxiv.org/pdf/2605.08462)

> 摘要:幻觉仍然是大型语言模型(LLMs)中持续存在的挑战,特别是在基于上下文的环境中,例如 RAG 和智能体(Agentic)AI 系统。本研究专注于摘要任务中的上下文幻觉检测。我们分析了 QAGS-C 和 SummEval 数据集,通过比较原始基准标注与 Gemini 2.5 Flash 和 GPT-5 Mini 基于推理和跨度(span)的预测结果来进行分析。为了解决人工标签与 LLM 判断之间的系统性分歧,我们通过两名跨文化仲裁员对存在冲突的样本进行了人工仲裁重新评估。经过重新评估后,三方一致性(人类、GPT 和 Gemini 之间)在 QAGS-C 上提高了 6.38%,在 SummEval 上提高了 7.62%。同样,模型准确率也得到了提升,GPT 在 QAGS-C 和 SummEval 上分别提高了 4.25% 和 2.34%,而 Gemini 分别提升了 8.51% 和 3.80%。值得注意的是,当 LLM 提供明确的推理过程时,仲裁员经常支持模型的判断而非原始的人工标注。整体人工仲裁员的一致性率在 83% 到 87% 之间。这些发现表明,对于容易产生歧义的任务,单次标注可能不足够,而模型辅助的重新评估能产生更可靠的基准。

## 提交历史

作者:İsmail Furkan Atasoy \[查看邮箱 (https://arxiv.org/show-email/14ee8f0e/2605.08462)\] **\[v1\]** 2026年5月8日 星期五 20:27:44 UTC \(530 KB\)

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。

HumanLLM:通过人类认知模式对大语言模型拟人化的基准测试与改进

arXiv cs.CL

HumanLLM 提出了一个框架,通过将心理模式建模为相互作用的因果力来对大语言模型的拟人化进行基准测试和改进。该方法从学术文献中构建了244个心理模式和11,359个多模式场景。研究表明,真正的人类对齐需要认知建模而非表面行为模拟,HumanLLM-8B 在多模式动态上的表现超越了 Qwen3-32B 等更大的模型。

理解LLM中新知识诱导的事实幻觉:分析与解释

arXiv cs.CL

本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。