幻觉检测引导的临床摘要偏好优化

arXiv cs.CL 2026/05/29 04:00 论文

摘要

介绍了HDSR和HDSR-PL方法，这些方法使用幻觉检测器来指导迭代自我改进和偏好学习，在MIMIC-IV-Note上使用Llama和Gemma模型进行临床摘要时，幻觉减少高达48%。

arXiv:2605.28910v1 公告类型: 新摘要: 大型语言模型（LLMs）在摘要任务中展现出潜力，但它们经常产生幻觉，即无根据或不正确的陈述，这限制了它们在专业医疗应用中的可靠性。我们介绍了\itermodelfull（\itermodel），一种推理时方法，利用幻觉检测器指导迭代摘要修订以实现事实纠正。在此基础上，我们提出了用于偏好学习的\itermodel（\model），该方法将检测器引导的改进轨迹转化为偏好对以进行模型微调。大量实验表明，我们的方法在\MimicIV上总结真实临床笔记时，显著减少了Llama和Gemma模型的幻觉。例如，\itermodel减少了24\%，而\model在Llama-3.1-8B-Instruct中减少了48\%的幻觉。重要的是，根据人类专家和LLM-Jury评估，两种方法都保持了摘要的流畅性、连贯性和相关性。这些结果共同表明，基于检测的改进和偏好学习为提高临床摘要的事实准确性提供了一种自动化解决方案。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:14

# 面向临床摘要的幻觉检测引导偏好优化 来源：https://arxiv.org/html/2605.28910 Shamanth Kuthpadi Seethakantha1∗Dung Ngoc Thai2∗Vara Prasad Gudi1∗ Simran Tiwari2Rami Matar3Avijit Mitra1 Wenlong Zhao1Wael Salloum2Andrew McCallum4 1,4曼宁信息与计算机科学学院2Ensemble HP3哥伦比亚学院 1\{skuthpadi,vgudi,avijit,wenlongzhao\}@umass\.edu,2\{simran\.tiwari,june\.thai,wael\.salloum\}@ensemblehp\.com 3\{rhm2142\}@columbia\.edu,4\{mccallum\}@cs\.umass\.edu ∗同等贡献 ###### 摘要 大型语言模型（LLMs）在摘要任务上展现出潜力，但常常产生幻觉——即无根据或不正确的陈述——这限制了其在专业医疗应用中的可靠性。我们提出**幻觉检测引导的自优化（HDSR）**，一种推理时方法，利用幻觉检测器引导迭代式摘要修订，以进行事实修正。在此基础上，我们提出面向偏好学习的HDSR（HDSR-PL），该方法将检测器引导的优化轨迹转化为偏好对，用于模型微调。大量实验表明，我们的方法在总结来自MIMIC-IV-Note v2.2的真实临床笔记时，显著减少了Llama和Gemma模型的幻觉。例如，HDSR减少了24%的幻觉，而HDSR-PL在Llama-3.1-8B-Instruct上减少了48%的幻觉。重要的是，根据人类专家和LLM裁判评估，两种方法均保持了摘要的流畅性、连贯性和相关性。这些结果共同表明，检测引导的优化和偏好学习为提升临床摘要的事实忠实度提供了一种自动化解决方案。 幻觉检测引导的偏好优化用于临床摘要 Shamanth Kuthpadi Seethakantha1∗Dung Ngoc Thai2∗Vara Prasad Gudi1∗Simran Tiwari2Rami Matar3Avijit Mitra1Wenlong Zhao1Wael Salloum2Andrew McCallum41,4曼宁信息与计算机科学学院2Ensemble HP3哥伦比亚学院1\{skuthpadi,vgudi,avijit,wenlongzhao\}@umass\.edu,2\{simran\.tiwari,june\.thai,wael\.salloum\}@ensemblehp\.com3\{rhm2142\}@columbia\.edu,4\{mccallum\}@cs\.umass\.edu∗同等贡献 ## 1 引言 参见图说明图1：通过检测引导的自优化缓解幻觉的概览。给定一份输入临床笔记，语言模型生成初始摘要，其中可能包含无根据或幻觉化的医疗内容。幻觉检测器识别无根据内容，用于引导迭代式自优化，旨在消除事实错误而非风格变化（上方；HDSR）。HDSR过程的中间输出被转化为偏好对，并用于偏好学习（例如，DPO），从而将忠实行为摊销化，并在推理时生成幻觉减轻的摘要（下方；HDSR-PL）。

大型语言模型在摘要任务上表现强劲，但常常生成幻觉——即内容未得到来源支持或与世界知识不一致的内容（Maynez 等，2020（https://arxiv.org/html/2605.28910#bib.bib21）；Ji 等，2023a（https://arxiv.org/html/2605.28910#bib.bib15）；Tang 等，2023（https://arxiv.org/html/2605.28910#bib.bib26））。即使在最新的LLM中，幻觉仍然普遍存在，在FaithBench等基准上大约有40-50%的发生率（Bao 等，2025（https://arxiv.org/html/2605.28910#bib.bib2）），这表明了持续的事实不可靠性。这个问题在临床摘要中尤为关键，因为LLM会压缩长篇幅的患者记录以支持护理服务。尽管与临床医生撰写的摘要性能相当（Veen 等，2024（https://arxiv.org/html/2605.28910#bib.bib28）），但幻觉表现为难以发现的虚构或歪曲的临床陈述（Asgari 等，2025（https://arxiv.org/html/2605.28910#bib.bib1）；Kim 等，2025（https://arxiv.org/html/2605.28910#bib.bib16））。即使是领域适应的模型也经常引入用医学上合理的术语表达的幻觉，需要专家审查（Hegselmann 等，2024（https://arxiv.org/html/2605.28910#bib.bib12）；Williams 等，2025（https://arxiv.org/html/2605.28910#bib.bib29）；Fang 等，2024（https://arxiv.org/html/2605.28910#bib.bib10）；Das 等，2025（https://arxiv.org/html/2605.28910#bib.bib6）），这凸显了临床摘要对事实可靠性的要求比通用领域任务更为严格。

现有的幻觉缓解策略大致分为训练时和推理时方法。训练时方法包括领域预训练、持续预训练、监督微调、参数高效适配器（Veen 等，2024（https://arxiv.org/html/2605.28910#bib.bib28）；Zaretsky 等，2024（https://arxiv.org/html/2605.28910#bib.bib30）），以及专门的损失函数或强化学习目标（Fabbri 等，2021（https://arxiv.org/html/2605.28910#bib.bib8）；Bao 等，2025（https://arxiv.org/html/2605.28910#bib.bib2）；Asgari 等，2025（https://arxiv.org/html/2605.28910#bib.bib1））。这些方法需要大量高质量的领域数据（Hegselmann 等，2024（https://arxiv.org/html/2605.28910#bib.bib12）），并且依赖于与临床正确性相关性较弱的事实性指标，限制了其实际影响。来自人类或AI反馈的强化学习提供了更大的灵活性，但需要精心设计的偏好数据，这在医疗环境中难以规模化（Lee 等，2024（https://arxiv.org/html/2605.28910#bib.bib48））。推理时技术避免了修改模型参数：检索增强生成将输出基于外部文档，但依赖于检索质量（Koopman and Zuccon, 2023（https://arxiv.org/html/2605.28910#bib.bib44）；Wan 等，2024（https://arxiv.org/html/2605.28910#bib.bib63）；Kim 等，2025（https://arxiv.org/html/2605.28910#bib.bib16）），而自优化（Madaan 等，2023（https://arxiv.org/html/2605.28910#bib.bib52））和验证循环（Tang 等，2023（https://arxiv.org/html/2605.28910#bib.bib26））可迭代地批评和修订生成内容，提高事实性但以更高的推理开销和过度编辑风险为代价。最近将迭代优化与对齐相结合的工作表明，即使保留了流畅性，这类方法也可能剥离关键内容或引入新的幻觉（Ji 等，2023b（https://arxiv.org/html/2605.28910#bib.bib42））。一种密切相关的方法是SynFac-Edit（Mishra 等，2024（https://arxiv.org/html/2605.28910#bib.bib54）），它为偏好优化生成合成编辑反馈，但依赖于预定义的错误类型和外部编辑模型。

我们的流程将幻觉检测与迭代自优化相结合，使用检测器反馈引导自优化，并从原始摘要和修订后的摘要中形成偏好对。然后，我们使用直接偏好优化在这些偏好对上训练LLM，生成更忠实且幻觉更少的摘要。在MIMIC IV临床摘要幻觉数据集上（Hegselmann 等，2024（https://arxiv.org/html/2605.28910#bib.bib12）），我们的方法通过自优化将幻觉减少约24%，通过微调减少高达48%，同时根据人类和LLM评判评估，摘要质量和流畅性得以保持，并且不增加额外推理时间成本。

## 2 方法

图1（https://arxiv.org/html/2605.28910#S1.F1）展示了我们的流程，该流程利用幻觉检测反馈引导摘要修订，并训练模型偏好忠实摘要。

### 2.1 问题陈述

给定一份源文档和生成的摘要，幻觉缓解的目标是生成信息丰富且对源文档忠实的摘要。我们将源文档及其摘要视为描述患者在住院期间记录的临床事实。如果摘要中的事实得到了源文档的支持，则该摘要是忠实的。当摘要引入无根据的事实或添加未记录的程序或发现时，就会产生幻觉，例如摘要中出现“腿部超声阴性”而源文档中没有支持。

### 2.2 幻觉检测引导的自优化

在自优化过程中，幻觉检测器被应用于生成的摘要，以识别无根据或与源文档不一致的内容。检测器反馈突出显示无根据的片段或陈述，并提示模型修订这些部分，同时保留有支持的内容（见附录A.2（https://arxiv.org/html/2605.28910#A1.SS2））。该过程将修订重点放在事实修正上，而非风格变化。检测和修订是迭代进行的。每次修订后，更新的摘要会被检测器重新评估，得到的反馈会引导后续修订，直到达到固定的迭代限制或未检测到进一步的幻觉。这种检测器引导的优化提高了事实对齐性，同时保持了整体流畅性。我们使用先前工作中的现有幻觉检测器，特别是MedCat（Kraljevic 等，2021（https://arxiv.org/html/2605.28910#bib.bib70））和基于提示的检测器（遵循MedAlign注释指南（Fleming 等，2024（https://arxiv.org/html/2605.28910#bib.bib71）））。MedCat将源文档和摘要中的临床概念链接到生物医学本体，以标记无根据或缺失的内容。MedAlign定义了临床驱动的幻觉类别分类体系，例如无根据的程序或药物，我们将其实现为基于提示的检测器。

### 2.3 从检测引导的自优化中进行偏好学习

检测引导的自优化为每个源文档生成摘要对，包括初始摘要和修订后（幻觉更少）的摘要。我们将修订后的摘要视为偏好输出，初始摘要视为非偏好输出，从而无需人工注释即可形成偏好对。我们使用直接偏好优化在这些对上训练摘要模型。该目标鼓励模型内化检测器引导的事实修正，将自优化的改进摊销到模型参数中，从而在推理时无需额外的优化步骤即可生成忠实内容。

## 3 实验

### 3.1 实验设置

我们研究从简短住院病程（BHC）部分到出院医嘱（DI）的临床摘要，使用来自MIMIC-IV-Note v2.2的数据集（Hegselmann 等，2024（https://arxiv.org/html/2605.28910#bib.bib12））。实验在带有幻觉注释的子集 Hallucination-Generated-DI 上进行评估，遵循 Hegselmann 等人（2024（https://arxiv.org/html/2605.28910#bib.bib12））的任务设定和注释指南。我们包含 GPT-5（OpenAI, 2025（https://arxiv.org/html/2605.28910#bib.bib73））零样本作为闭源参考，并主要关注 LLaMA-3.1-8B-Instruct（Meta, 2024b（https://arxiv.org/html/2605.28910#bib.bib67））作为开源基础模型。此外，我们报告了两个较小的开源模型的结果：LLaMA-3.2-3B-Instruct（Meta, 2024a（https://arxiv.org/html/2605.28910#bib.bib68））和 Gemma-3-4B-IT（Google, 2025（https://arxiv.org/html/2605.28910#bib.bib69）），在有限设置下进行评估。对于 LLaMA-3.1-8B-Instruct，我们评估了零样本生成、监督微调（SFT）、推理时检测引导的自优化（HDSR）以及训练时检测引导的偏好学习（HDSR-PL）。检测引导的变体使用 MedCat（Kraljevic 等，2021（https://arxiv.org/html/2605.28910#bib.bib70））和 MedAlign（Fleming 等，2024（https://arxiv.org/html/2605.28910#bib.bib71））作为幻觉检测器。

#### 评估。

我们报告实体级别的幻觉计数和基于临床医生的人类评估，涵盖四个主要摘要质量指标：一致性、连贯性、流畅性和相关性。我们遵循 Hegselmann 等人（2024（https://arxiv.org/html/2605.28910#bib.bib12））的协议，其中包括识别无根据和矛盾内容的定量细粒度幻觉注释，以及跨相同维度的摘要质量定性分析。注释由一组对模型身份不知情的临床医生进行：对于定量任务，每个摘要由两名注释者（H1 和 H2）独立注释，并通过裁决解决分歧；对于定性分析，两名注释者独立评分摘要，不进行裁决。对于 LLaMA-3.1-8B-Instruct，人类评估在盲态下进行，采用双重注释和针对幻觉标签的裁决，构成了表1（https://arxiv.org/html/2605.28910#S3.T1）中主要结果的基础。对于 LLaMA-3.2-3B-Instruct 和 Gemma-3-4B-IT，由于资源限制，我们报告由一名临床医生（H1）注释的幻觉计数，并用自动 LLM 评判分数替代人类定性评估。

### 3.2 主要结果

| 模型 / 方法 | 幻觉计数 ↓ | 摘要质量指标 | 一致性 ↑ | 连贯性 ↑ | 流畅性 ↑ | 相关性 ↑ | 平均值 ↑ |
|---|---|---|---|---|---|---|---|
| GPT-5 | 提示 | 36 | 3.55 | 4.73 | 4.73 | 4.08 | 4.27 |
| LLaMA-3.1-8B-Instruct | 提示 | 29 | 4.08 | 3.83 | 4.05 | 3.23 | 3.79 |
| | SFT | 57 | 3.03 | 4.43 | 4.53 | 3.03 | 3.75 |
| | HDSR（最佳；MedAlign） | 22 | 4.13 | 4.48 | 4.53 | 3.95 | 4.27 |
| | HDSR-PL（最佳；MedCat） | 15 | 4.40 | 4.28 | 4.05 | 3.90 | 4.16 |
| LLaMA-3.2-3B-Instruct | 提示 | 26 | 4.13 | 4.58 | 4.68 | 4.20 | 4.39 |
| | HDSR-PL（最佳；MedCat） | 13 | 4.23 | 4.58 | 4.68 | 4.30 | 4.44 |
| Gemma-3-4b-it | 提示 | 15 | 4.23 | 4.65 | 4.68 | 4.48 | 4.51 |
| | HDSR-PL（最佳；MedCat） | 13 | 4.33 | 4.65 | 4.70 | 4.63 | 4.58 |

表 1：在 Hallucination-Generated-DI 上的结果。我们检测器引导方法的两种变体都优于零样本和 SFT 基线。注意，对于 LLama-3.2-3B-Instruct 和 Gemma-3-4b-it，我们使用自动 LLM 裁判评估摘要质量指标。

表 2：各模型幻觉错误类型分布。

| 模型 | 无根据状况 | 无根据程序 | 无根据药物 | 无根据时间 | 无根据位置 | 无根据数字 | 无根据名称 | 无根据词 | 无根据其他 | 矛盾事实 | 错误事实 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| *LLaMA-3.1-8B-Instruct* | | | | | | | | | | | |
| 提示 | 8 | 2 | 1 | 3 | 4 | 0 | 1 | 2 | 0 | 8 | 0 |
| SFT | 15 | 11 | 8 | 3 | 6 | 0 | 3 | 1 | 7 | 0 | 0 |
| 自优化（无检测器） | 10 | 2 | 6 | 2 | 3 | 3 | 1 | 1 | 1 | 2 | 0 |
| HDSR（使用 MedCat） | 7 | 1 | 3 | 4 | 3 | 2 | 2 | 2 | 0 | 1 | 0 |
| HDSR（使用 MedAlign） | 4 | 2 | 1 | 3 | 3 | 1 | 1 | 0 | 2 | 5 | 0 |
| HDSR-PL（最佳；MedCat） | 3 | 1 | 0 | 1 | 2 | 0 | 0 | 0 | 0 | 8 | 0 |

表 3：检测信号对幻觉缓解的影响。LLaMA-3.1-8B 上有无检测器自优化的比较。

| 模型 / 方法 | 幻觉计数 ↓ | 摘要质量指标 | 一致性 ↑ | 连贯性 ↑ | 流畅性 ↑ | 相关性 ↑ |
|---|---|---|---|---|---|---|
| 自优化（无检测器） | 31 | 3.85 | 4.25 | 4.58 | 4.20 |
| HDSR（使用 MedCat） | 25 | 4.08 | 4.55 | 4.58 | 4.13 |
| HDSR（使用 MedAlign） | 22 | 4.13 | 4.48 | 4.53 | 3.95 |

表 1（https://arxiv.org/html/2605.28910#S3.T1）展示了在 Hallucination-Generated-DI 基准上的主要结果，比较了使用 LLaMA-3.1-8B-Instruct 的零样本生成、监督微调（SFT）、HDSR 和 HDSR-PL。我们还报告了 LLaMA-3.2-3B-Instruct 和 Gemma-3-4B-IT 的有限结果。以下分析重点针对 LLaMA-3.1。

#### SFT 放大了幻觉。

在临床医生撰写的参考上进行的监督微调显著恶化了事实对齐性，并将幻觉数量增加到 57，几乎是零样本基线的两倍。尽管监督微调改善了流畅性（4.53）和连贯性（4.43），但一致性急剧下降（3.03）。

#### HDSR 提高了摘要质量并缓解了幻觉。

我们的 HDSR 相比两种基准

幻觉检测引导的临床摘要偏好优化

相似文章

RAGognizer：通过检测头集成实现幻觉感知微调

零源大语言模型幻觉检测：基于类人标准探询方法

PARALLAX: 区分真实幻觉检测与基准构建伪影

面向NMT与抽象式摘要中幻觉检测的逐层最优传输

通过分阶段自奖励缓解多模态幻觉

提交意见反馈