HalluScore:大语言模型幻觉问答基准
摘要
介绍HalluScore,一个结构化的阿拉伯语问答基准,用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题,已在17个大语言模型上测试。
查看缓存全文
缓存时间: 2026/05/19 06:37
# HalluScore:大型语言模型幻觉问答基准 来源:https://arxiv.org/html/2605.17007 \\pagemark 1\\addauthorAisha Alansari10000\-0002\-4600\-976X\\addauthor\[corresponding\]Hamzah Luqman1,20000\-0001\-7944\-5093\\addaffiliation1信息与计算机科学系,法赫德国王石油矿产大学\\addaffiliation2SDAIA\-KFUPM人工智能联合研究中心\\correspondingauthorhluqman@kfupm\.edu\.sa\\setabstract 大型语言模型(LLMs)在自然语言生成方面取得了显著进展,但仍然容易产生幻觉。针对日益增长的幻觉问题,已有多个基准被开发,主要集中在英语和中文。然而,阿拉伯语仍缺乏足够的代表性,因标注资源稀缺及语言形态复杂,针对LLM幻觉的基准有限。因此,现有基准未能充分反映阿拉伯语的语义、文化和推理特点。为弥补这一空白,我们提出**HalluScore**,一个结构化的阿拉伯语问答基准,专门用于评估LLMs在不同推理难度、多领域知识、历史时间线以及阿拉伯文化场景下的幻觉行为。该基准包含827个精心设计的问题,用于评估、检测和缓解LLM幻觉。数据集通过结构化的流水线构建,包括质量保证、清晰性和事实准确性过滤,以及基于模型驱动的问题选择,以保留那些持续引发幻觉的问题。每个问题均附有经过验证的事实依据、答案解释及多标签标注。利用HalluScore基准,我们对17个阿拉伯语、多语言及推理型LLM的幻觉模式进行了全面的实证分析。此外,我们还提供了高质量的人工标注,标记了所有被评估LLM的幻觉、非幻觉及部分幻觉响应。这些结果表明,阿拉伯语LLM的幻觉不仅限于事实性错误,还包括文化理解、语言推理和逻辑一致性方面的挑战。我们发布HalluScore,以支持未来关于提高LLM在阿拉伯语中可靠性和文化能力的研究。 ###### 关键词:大型语言模型;LLM;幻觉;幻觉基准;幻觉评估;问答 ## 1 引言 近期的大型语言模型(LLM),如GPT-5和Claude-4,已发展为开放领域聊天机器人,能够回答广泛主题的问题。尽管性能卓越,这些LLM有时会产生**幻觉**,生成看似合理但缺乏事实依据的响应[1 (https://arxiv.org/html/2605.17007#bib.bib1)]。LLM幻觉指的是模型生成不基于已验证事实或可靠来源的输出现象[1 (https://arxiv.org/html/2605.17007#bib.bib1)]。这种情况通常发生在LLM生成听起来流畅且令人信服,但包含不准确、误导性或完全捏造信息的响应时。LLM幻觉通常分为事实性幻觉和忠实性幻觉[2 (https://arxiv.org/html/2605.17007#bib.bib2)]。事实性幻觉中,LLM生成与可验证知识相矛盾的错误信息;而忠实性幻觉中,LLM生成的内容虽可能事实正确,但缺乏对给定输入或上下文的支持[1 (https://arxiv.org/html/2605.17007#bib.bib1)]。幻觉可能在LLM开发流水线的多个阶段产生:数据收集阶段,由于过时或知识冲突的数据;微调阶段,由于任务特定偏差及模型内部能力与对齐数据中编码期望的不匹配;推理阶段,由于采样随机性和softmax激活函数[2 (https://arxiv.org/html/2605.17007#bib.bib2),3 (https://arxiv.org/html/2605.17007#bib.bib3)]。解决LLM幻觉问题对于提高其在医疗、教育和法律等真实应用中的可靠性至关重要,因错误信息可能导致有害决策。 针对LLM幻觉日益增长的担忧,已有多个基准被提出用于评估事实可靠性[4 (https://arxiv.org/html/2605.17007#bib.bib4),5 (https://arxiv.org/html/2605.17007#bib.bib5)]。然而,这些数据集大多面向高资源语言如英语和中文,而像阿拉伯语这样广泛使用的语言则相对缺乏研究[6 (https://arxiv.org/html/2605.17007#bib.bib6)]。尽管近期阿拉伯语LLM如Allam[7 (https://arxiv.org/html/2605.17007#bib.bib7)]、Jais[8 (https://arxiv.org/html/2605.17007#bib.bib8)]和Fanar[9 (https://arxiv.org/html/2605.17007#bib.bib9)]在学术界和工业界日益受到关注[10 (https://arxiv.org/html/2605.17007#bib.bib10),11 (https://arxiv.org/html/2605.17007#bib.bib11)],但阿拉伯语LLM的幻觉问题仍缺乏系统化的评估、检测与缓解研究[3 (https://arxiv.org/html/2605.17007#bib.bib3)]。这一研究空白因阿拉伯语本身的语言特性而进一步加剧:丰富的形态学和复杂的句法结构给自然语言理解与生成系统带来了额外挑战[12 (https://arxiv.org/html/2605.17007#bib.bib12),13 (https://arxiv.org/html/2605.17007#bib.bib13)]。这些特性增加了模型输出的歧义性和变异性,使得幻觉检测与缓解相较于结构简单的语言更为困难。随着阿拉伯语LLM逐渐融入真实应用,确保其事实可靠性愈发关键。因此,开发专门的阿拉伯语幻觉基准并系统评估LLM的幻觉行为,既是及时的也是必要的。 近期已有少数研究开始评估和检测阿拉伯语环境下的LLM幻觉[14 (https://arxiv.org/html/2605.17007#bib.bib14),15 (https://arxiv.org/html/2605.17007#bib.bib15),3 (https://arxiv.org/html/2605.17007#bib.bib3),16 (https://arxiv.org/html/2605.17007#bib.bib16),17 (https://arxiv.org/html/2605.17007#bib.bib17)]。尽管Halwasa[14 (https://arxiv.org/html/2605.17007#bib.bib14)]是首个专门用于阿拉伯语幻觉检测与缓解的数据集,但它主要侧重于基于预定义关键词的文本生成,可能无法充分反映真实的用户交互或复杂推理场景。同样,其他如Aftina[16 (https://arxiv.org/html/2605.17007#bib.bib16)]和IslamicEval[17 (https://arxiv.org/html/2605.17007#bib.bib17)]等数据集局限于特定领域(尤其是宗教领域),限制了其在更广泛真实应用中的泛化能力。这些局限凸显了需要一个更全面、跨领域的阿拉伯语问答(QA)基准,以更好地捕捉幻觉发生的多样条件,包括对抗性表述、文化知识和推理复杂性。 为填补这些空白,我们提出**HalluScore**,一个结构化的阿拉伯语问答基准,包含827个问答对,旨在系统评估LLM在多维度上的幻觉行为,包括领域知识、推理层次、历史事件、文化知识及对抗性问题类型。该数据集通过多阶段、结构化的流水线构建,涵盖问题收集、质量过滤、幻觉驱动选择和人工精炼,以确保多样性、清晰度及与幻觉的相关性。每个问题均附带经过验证的事实来源、答案解释及多标签标注,包括问题类型、领域知识、以及二元指示符(如推理需求、对抗意图、阿拉伯文化相关性、历史依赖性)。我们利用该数据集评估了17个LLM,并根据明确定义的标准,由人工将它们的响应标注为幻觉或非幻觉。我们还评估了非幻觉响应中的部分幻觉现象——即响应虽回答了主要问题但引入了额外虚构事实。与许多仅依赖自动标注或弱监督的现有基准不同,我们的标注为幻觉评估提供了高质量的真实事实。此外,我们还识别了每个被评估LLM中触发幻觉的问题类型,这对于理解模型弱点及揭示某些幻觉风险是模型特有还是跨架构一致具有重要意义。 本研究的主要贡献总结如下: - •提出**HalluScore**,首个用于评估LLM幻觉的阿拉伯语问答基准。 - •提出一种新颖的多维度幻觉分类方法,超越了简单的二元正确性判断,涵盖了幻觉类型、对抗意图、推理需求、历史相关性、阿拉伯文化基础及领域特定知识。 - •为每个样本提供经过验证的事实依据和详细的答案解释,支持可解释评估、LLM作为评判框架,并促进未来在幻觉评估、检测与缓解方面的研究。 - •在**HalluScore**上对17个LLM(包括阿拉伯语、多语言及推理型LLM)进行基准测试,并提供其响应的详细分析。 - •对17个LLM的响应进行人工标注,分类忠实性幻觉、事实性幻觉以及部分幻觉。 - •分析不同LLM表现的主要幻觉类型,并识别每种模型中最常出现的类别。 - •通过响应级分析讨论LLM的弱点,突出文化理解、提示敏感性和推理限制方面的失败案例。 本文其余部分组织如下:第2节综述相关研究。第3节详细介绍HalluScore的构建过程。第4节呈现数据集的统计分析,第5节详述基准测试方法,包括被评估模型、实验设置及人工评估协议。第6节详细讨论实证结果,并进行深度幻觉响应级分析。最后,第7节讨论局限性,第8节总结本研究。 ## 2 相关工作 #### LLM幻觉 LLM幻觉指的是生成缺乏事实或准确信息支撑的内容[1 (https://arxiv.org/html/2605.17007#bib.bib1),4 (https://arxiv.org/html/2605.17007#bib.bib4),2 (https://arxiv.org/html/2605.17007#bib.bib2)]。当LLM倾向于生成包含虚构、误导或完全捏造信息的文本时,即产生幻觉。这种行为归因于多种原因,如过时知识、Softmax函数、注意力机制及采样随机性[2 (https://arxiv.org/html/2605.17007#bib.bib2)]。该问题削弱了LLM的可信度,并限制了其在真实场景中的实际应用。因此,解决LLM的幻觉问题对于提高其在金融、医疗和法律等真实应用中的可靠性至关重要[6 (https://arxiv.org/html/2605.17007#bib.bib6)]。 大量研究专注于跨语言和任务对幻觉行为进行基准测试。早期研究主要评估英语环境下的幻觉,尤其是在摘要和问答任务中[1 (https://arxiv.org/html/2605.17007#bib.bib1),18 (https://arxiv.org/html/2605.17007#bib.bib18),19 (https://arxiv.org/html/2605.17007#bib.bib19)]。近期工作将分析扩展到多语言环境,包括中文[20 (https://arxiv.org/html/2605.17007#bib.bib20),21 (https://arxiv.org/html/2605.17007#bib.bib21),22 (https://arxiv.org/html/2605.17007#bib.bib22)]和阿拉伯语[14 (https://arxiv.org/html/2605.17007#bib.bib14),3 (https://arxiv.org/html/2605.17007#bib.bib3),17 (https://arxiv.org/html/2605.17007#bib.bib17)],反映出对理解高资源语言之外幻觉现象日益增长的兴趣。然而,由于语言复杂性、数据可用性有限及领域特定知识缺口,幻觉在低资源语言中仍具挑战性[6 (https://arxiv.org/html/2605.17007#bib.bib6)]。 为检测LLM幻觉,已有研究提出了多种检测策略,大致可分为基于检索、基于不确定性、基于嵌入、基于学习及基于自一致性等方法[2 (https://arxiv.org/html/2605.17007#bib.bib2),6 (https://arxiv.org/html/2605.17007#bib.bib6)]。基于检索的方法通过外部知识源验证模型输出,将生成内容与支持文档进行比对[23 (https://arxiv.org/html/2605.17007#bib.bib23),24 (https://arxiv.org/html/2605.17007#bib.bib24)]。这类技术对事实性幻觉有效,但严重依赖检索知识的质量和覆盖范围。相比之下,基于不确定性的方法依赖于模型置信度信号,如token概率和熵,以标记不可靠输出[25 (https://arxiv.org/html/2605.17007#bib.bib25),26 (https://arxiv.org/html/2605.17007#bib.bib26)]。尽管这些方法数据效率高,但当模型以高置信度生成幻觉响应时,它们往往失效。基于嵌入的方法通过测量输入、输出和参考之间的语义一致性,捕捉深层语义差异,但在领域外场景中表现不佳[27 (https://arxiv.org/html/2605.17007#bib.bib27),28 (https://arxiv.org/html/2605.17007#bib.bib28)]。基于学习的方法利用标注数据或内部表示训练分类器以检测幻觉,性能强但需要高质量标注数据集[29 (https://arxiv.org/html/2605.17007#bib.bib29),30 (https://arxiv.org/html/2605.17007#bib.bib30)]。最后,自一致性方法生成多个输出并评估其一致性,无需外部知识即可检测,但对提示设计和采样策略敏感[31 (https://arxiv.org/html/2605.17007#bib.bib31),32 (https://arxiv.org/html/2605.17007#bib.bib32)]。 另一方面,缓解幻觉的方法可分为基于提示、基于检索、基于推理及模型中心技术[6 (https://arxiv.org/html/2605.17007#bib.bib6)]。基于提示的方法通过结构化指令引导模型生成事实性输出[33 (https://arxiv.org/html/2605.17007#bib.bib33),34 (https://arxiv.org/html/2605.17007#bib.bib34)],而基于检索的方法(如检索增强生成RAG)[35 (https://arxiv.org/html/2605.17007#bib.bib35)]则将响应建立在外部知识之上。基于推理的技术,包括思维链[36 (https://arxiv.org/html/2605.17007#bib.bib36)]和自我验证[37 (https://arxiv.org/html/2605.17007#bib.bib37)],可改善逻辑一致性并减少推理错误。最后,模型中心方法侧重于
相似文章
MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉
# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院
HalluWorld:基于参考世界模型的可控幻觉基准
HalluWorld 是一个可控基准框架,通过显式的参考世界模型在网格世界、国际象棋和实际终端任务等合成环境中评估大型语言模型中的幻觉。它可以细粒度分析各种故障模式,例如感知幻觉、多步状态追踪和因果模拟,揭示出前沿模型在处理扩展思维无法解决的复杂推理时仍然存在困难。
HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
幻觉作为承诺失败:大型语言模型在知晓答案的情况下仍然犯错
本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念,作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下,并且这一比例随着模型规模增加而上升。他们指出,指令调优强化了答案承诺,使得有用性和自信幻觉成为同一枚硬币的两面。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。