MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉
摘要
# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院
查看缓存全文
缓存时间: 2026/04/21 07:05
# MeasHalu:通过增强推理缓解大语言模型的科学测量值幻觉 来源:https://arxiv.org/html/2604.16929 Ruijun Huang1, Zhiqiao Kang1, Yuxuan Zhu1, Junxiong Li1, Jiahao Zhao1, Minghuan Tan1††thanks:Corresponding author, Feng Jiang211footnotemark:1,Min Yang1 1中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室, 2深圳先进技术大学人工智能研究所 通讯地址:mh\.tan@siat\.ac\.cn, jiangfeng@suat\-sz\.edu\.cn (https://arxiv.org/html/2604.16929v1/mailto:[email protected],[email protected]) ###### 摘要 从文献中准确提取科学测量值是AI4Science领域一项关键且极具挑战性的任务,它使得定量研究结果的大规模分析与整合成为可能。然而,大语言模型(LLMs)经常表现出严重的幻觉问题,这极大地削弱了自动化科学文档理解系统的可靠性。为解决这一问题,我们提出了MeasHalu,这是一种新颖的框架,旨在通过增强的推理和针对性优化来缓解科学测量值的幻觉。我们首先提出了一套细粒度的测量值特定幻觉分类体系,将错误按数量、单位、修饰词和关系进行分类。我们的方法采用了一种两阶段的感知推理微调策略,利用增强型科学数据和基于过程的监督进行训练。此外,我们引入了一种渐进式奖励课程,专门针对特定的幻觉类型施加惩罚,显著提高了抽取的忠实度。实验结果表明,MeasHalu在MeasEval基准测试上大幅降低了幻觉率并提升了整体准确率。本工作为自动化科学知识抽取中的关键瓶颈提供了解决方案,促进了更可靠且可扩展的机器辅助科学文献分析。我们的代码和数据已公开在 https://github.com/CAS-SIAT-XinHai/MeasHalu 。 MeasHalu: Mitigation of Scientific Measurement Hallucinations for Large Language Models with Enhanced Reasoning Ruijun Huang1, Zhiqiao Kang1, Yuxuan Zhu1, Junxiong Li1, Jiahao Zhao1,Minghuan Tan1††thanks:Corresponding author,Feng Jiang211footnotemark:1,Min Yang1 1中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室, 2深圳先进技术大学人工智能研究所 通讯地址:mh\.tan@siat\.ac\.cn, jiangfeng@suat\-sz\.edu\.cn (https://arxiv.org/html/2604.16929v1/mailto:[email protected],[email protected]) Refer to caption **图注:** MeasHalu的研究动机。为了纠正解析失败,我们提出了一种基于分类体系的方法,以缓解数量和关系幻觉。 ## 1 引言 科学文献的快速扩张对可靠的定量知识自动抽取产生了前所未有的需求,这构成了现代AI4Science应用(如大规模荟萃分析、知识库构建和自主科学发现)的核心(Hansonet al.,2024 (https://arxiv.org/html/2604.16929#bib.bib108); Chenet al.,2025 (https://arxiv.org/html/2604.16929#bib.bib109))。该过程的核心在于*科学测量值抽取*——即识别数值量、其单位、修饰词以及与被测实体和属性的关系。这些定量陈述构成了从材料科学到生物医学研究的各个学科实验科学的证据基石(Berrahouet al.,2013 (https://arxiv.org/html/2604.16929#bib.bib87); Kononovaet al.,2021 (https://arxiv.org/html/2604.16929#bib.bib88))。尽管最近的大语言模型(LLMs)展现了卓越的泛化能力,但在此类任务上的表现依然不可靠(Foppianoet al.,2024 (https://arxiv.org/html/2604.16929#bib.bib86)):即使是数量或关系上的微小幻觉,也可能导致整个实验结论无效,严重限制了基于LLM的科学理解系统的可信度。 这一失败背后的一个关键挑战在于,*测量值幻觉与一般文本幻觉存在根本差异*。不同于开放域的事实错误,测量值幻觉呈现出细粒度的结构失效特征:模型会捏造不存在的数值,将数量与错误的实体关联,忽略关键的限定词,或者扭曲科学变量之间的关系(Saieret al.,2024 (https://arxiv.org/html/2604.16929#bib.bib83))。现有的幻觉缓解技术(如检索增强(Lewiset al.,2020 (https://arxiv.org/html/2604.16929#bib.bib111)))、通用指令微调或对话式验证(Polak and Morgan,2024 (https://arxiv.org/html/2604.16929#bib.bib112)))仍然不足,因为它们并非专为科学测量所需的严格事实锚定(grounding)和结构一致性而设计。 然而,尽管该问题至关重要,当前研究既缺乏对测量值特定幻觉现象的系统性分析,也缺乏针对性的缓解学习机制。例如,即便是最先进的基于LLM的抽取系统,也常因生成原文中不存在的隐含信息而牺牲忠实度,例如推断化学式(Dagdelenet al.,2024 (https://arxiv.org/html/2604.16929#bib.bib113))。 在本工作中,我们提出了MeasHalu,这是一个推理增强框架,明确建模并抑制大语言模型中的科学测量值幻觉。我们的核心洞见是:该领域的幻觉源于两个交织的因素:(1) 不可靠的定量推理会破坏单个数量和单位的准确性;(2) 脆弱的长程关系推理会破坏数量、实体与科学属性之间的一致性。MeasHalu通过将感知推理的监督微调与通过结构化奖励塑造进行的针对性强化学习相结合的统一学习管道来解决这些失效模式,从而将科学锚定约束直接内化到模型参数中。 具体而言,MeasHalu引入了细粒度的测量值幻觉分类体系,并利用该分析设计了一种渐进式优化策略:初始监督阶段标准化定量推理和抽取结构,随后结合精心设计的奖励机制进行组相对策略优化(GRPO),以惩罚捏造、越界预测、误分类和关系不完整等问题。我们的框架基于MeasEval注释架构(Harperet al.,2021b (https://arxiv.org/html/2604.16929#bib.bib130))开发,并在训练过程中集成了外部数量验证器,包括CQE(Almasianet al.,2023b (https://arxiv.org/html/2604.16929#bib.bib114))和Quantulum3111https://github.com/nielstron/quantulum3。在MeasEval基准及其新构建的MeasEval-Ext数据集上的大量实验表明,MeasHalu大幅降低了幻觉率,并始终优于强大的监督基线及专有LLMs。此外,我们证明了MeasHalu可作为可靠的外部测量值抽取工具,显著提升下游具身科学任务的性能,验证了其在可信AI4Science系统中的实用价值。 我们的贡献总结如下: - 首次对大语言模型中的科学*测量值幻觉*进行了细粒度分析,揭示了其结构本质,并确定了两种根本的失效源:不可靠的定量推理和脆弱的数据关系锚定。 - 提出了MeasHalu,一种统一的推理增强学习框架,通过整合感知推理的监督微调与带有结构化奖励塑造的针对性强化学习,系统性地抑制测量值幻觉。 - 构建了新的分布外评估基准MeasEval-Ext,并通过大量实验证明,MeasHalu在科学测量值抽取任务上大幅降低了幻觉率,且始终优于强大的监督基线和专有LLMs。 - 进一步证明MeasHalu可作为可靠的外部测量值抽取工具,显著提升下游具身科学任务的性能,验证了其在可信AI4Science系统中的实际效用。 ## 2 相关工作 ### 2.1 大语言模型中的幻觉 幻觉(指语言模型生成无事实依据或事实错误的内容)在通用LLMs中已被广泛研究Huanget al.\.(2025 (https://arxiv.org/html/2604.16929#bib.bib118))。大多数前期工作侧重于开放式生成中的语义和事实幻觉Jiet al.\.(2023 (https://arxiv.org/html/2604.16929#bib.bib116)),典型分类包括捏造、不一致和逻辑错误Liet al.\.(2025 (https://arxiv.org/html/2604.16929#bib.bib117))。然而,这些分类主要面向自由文本生成,未能捕捉测量值抽取的结构要求(其中数值忠实度、单位一致性和实体-数量关系锚定至关重要)。我们通过提出*测量值特定幻觉*的细粒度分类体系,并设计针对这些失效模式的缓解机制来弥补这一空白。 ### 2.2 通用信息抽取 vs. 测量值抽取 信息抽取(IE)和命名实体识别(NER)是基础NLP任务Nadeau and Sekine \(2007 (https://arxiv.org/html/2604.16929#bib.bib115)\)。虽然早期系统依赖规则基础和特征工程管线,但现代方法越来越利用神经网络架构和预训练语言模型。尽管如此,*科学测量值抽取*提出了超越传统IE的额外约束:模型必须准确捕获数值、单位和修饰词,并在严格锚定下保留其与测量实体和属性的结构化关系。这些约束使该任务对幻觉高度敏感,并促使学习目标显式惩罚捏造、范围错位和关系不完整。 ### 2.3 科学测量值抽取与基准 SciERCLuanet al.\(2018 (https://arxiv.org/html/2604.16929#bib.bib120)\)和MeasEvalHarperet al.\(2021a (https://arxiv.org/html/2604.16929#bib.bib119)\)等数据集推动了科学信息抽取的发展。其中,MeasEval提供了最细粒度的科学测量值注释架构,包括数量、单位、修饰词及其关系,已成为评估测量值抽取系统的关键基准。尽管取得进展,但在数值接地和关系一致的抽取方面仍具挑战性,尤其是包含多个测量值和隐式约束的复杂句子Xuet al.\(2024 (https://arxiv.org/html/2604.16929#bib.bib126)\)。我们的工作建立在MeasEval架构之上,并针对这些持续的失效模式采用了感知幻觉的优化框架。 ### 2.4 大语言模型幻觉的缓解策略 研究界提出了多种减少LLMs幻觉的技术,包括检索增强生成(RAG)(Lewiset al.,2020 (https://arxiv.org/html/2604.16929#bib.bib111))、监督微调(SFT)(Zhouet al.,2023 (https://arxiv.org/html/2604.16929#bib.bib122))、思维链提示(Wei et al.,2022 (https://arxiv.org/html/2604.16929#bib.bib121))、基于过程的监督(Lightmanet al.,2023 (https://arxiv.org/html/2604.16929#bib.bib125))、人类反馈强化学习(RLHF)(Ouyanget al.,2022 (https://arxiv.org/html/2604.16929#bib.bib123))以及直接偏好优化(DPO)(Rafailovet al.,2023 (https://arxiv.org/html/2604.16929#bib.bib124))。这些方法对开放式生成有效,但并未专门设计用于满足科学测量值抽取所需的严格锚定和结构一致性。相比之下,我们的方法将感知推理的SFT与针对性强化学习和结构化奖励塑造相结合,显式编码测量值特定约束,从而在结构根源上抑制幻觉。尽管在幻觉缓解方面取得了显著进展,但先前的工作既未系统刻画科学测量值抽取中的幻觉,也未引入针对其错误模式的专门奖励目标。我们通过将细粒度幻觉分类与专为测量值特定错误抑制设计的渐进优化框架相结合,弥补了这一空白。 ## 3 方法论 基于第2节(https://arxiv.org/html/2604.16929#S2)的分析,我们以一个核心假设为中心设计MeasHalu:*科学测量值幻觉源于两种截然不同的失效模式——不可靠的定量推理和脆弱的关系锚定*。因此,我们的框架采用双分支缓解策略,分别针对*数量幻觉*和*基于关系的幻觉*。如图2(https://arxiv.org/html/2604.16929#S3.F2)所示,MeasHalu将渐进式监督微调与感知幻觉的强化学习相结合,使模型能够将严格的科学锚定约束直接内化到其推理过程中。这些幻觉(见表10(https://arxiv.org/html/2604.16929#A5.T10))严重损害了LLMs在该关键任务上的可靠性。 Refer to caption **图注:** 我们的方法概述,包含两个阶段:监督微调 & 基于GRPO的强化学习。 ### 3.1 数量幻觉缓解 与以往对数量和关系采用端到端联合训练的方法不同,我们的方法首先独立训练数量抽取。此外,在SFT阶段之后,我们融入了由针对幻觉奖励驱动的GRPO阶段,以进一步减轻幻觉。 #### 3.1.1 渐进式监督微调 为使LLM具备结构化数量推理能力,我们采用渐进式SFT策略。具体而言,我们首先利用$\mathcal{D}_{\text{aug}}$建立基础的定量推理技能,随后在$\mathcal{D}_{\text{trace}}$上进行微调,以确保严格符合MeasEval标准。这两个数据集的构建细节详述如下。 ##### $\mathcal{D}_{\text{aug}}$ 我们从arXiv论文摘要(Cohanet al.,2018 (https://arxiv.org/html/2604.16929#bib.bib103))中整理出一个未标注语料库$\mathcal{X}_{\text{un}}$。由于缺乏金标准数量注释,我们使用Quantulum3 ($f_{\text{qtm}}, \footnote{\url{https://github.com/nielstron/quantulum3}}$) 提取数量候选项,然后利用增强模板$\mathcal{P}_{\text{aug}}$提示$\mathcal{M}$验证这些锚点并生成推理轨迹$h_{\text{aug}}$。形式化地,对于$x \in \mathcal{X}_{\text{un}}$: $$ \tilde{y} \leftarrow f_{\text{qtm}}(x), \quad h_{\text{aug}} \leftarrow \mathcal{M}(x, \tilde{y}; \mathcal{P}_{\text{aug}}) \quad (1) $$ 其中$\tilde{y}$是$f_{\text{qtm}}$产生的含噪声伪标签,$\mathcal{P}_{\text{aug}}$引导$\mathcal{M}$过滤假阳性
相似文章
ClinHallu:用于诊断医疗多模态大语言模型推理中阶段性幻觉的基准
ClinHallu是一个基准,通过将推理分解为视觉识别、知识回忆和推理整合阶段,并使用轨迹监督微调来减少错误,从而诊断和缓解医疗多模态大语言模型中的幻觉。
HalluScore:大语言模型幻觉问答基准
介绍HalluScore,一个结构化的阿拉伯语问答基准,用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题,已在17个大语言模型上测试。
HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
HalluWorld:基于参考世界模型的可控幻觉基准
HalluWorld 是一个可控基准框架,通过显式的参考世界模型在网格世界、国际象棋和实际终端任务等合成环境中评估大型语言模型中的幻觉。它可以细粒度分析各种故障模式,例如感知幻觉、多步状态追踪和因果模拟,揭示出前沿模型在处理扩展思维无法解决的复杂推理时仍然存在困难。
从架构到输出:大型语言模型中幻觉的结构根源及数据的放大作用
本文分析了大型语言模型中的幻觉,将其视为三个架构决策的结构性后果:自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型,并论证了数据集病态会放大但不会导致这些脆弱性。