ClinHallu:用于诊断医疗多模态大语言模型推理中阶段性幻觉的基准

Hugging Face Daily Papers 论文

摘要

ClinHallu是一个基准,通过将推理分解为视觉识别、知识回忆和推理整合阶段,并使用轨迹监督微调来减少错误,从而诊断和缓解医疗多模态大语言模型中的幻觉。

构建值得信赖的医疗多模态大语言模型(MLLMs)对于可靠的临床决策支持至关重要。现有的医疗幻觉基准主要关注数据收集,但往往忽略了推理过程中幻觉的起源。我们发现幻觉来源因样本而异:错误可能源于视觉识别错误、医学知识回忆不正确或推理整合有缺陷。为了实现源头级别的幻觉诊断,我们提出了ClinHallu,一个用于医疗MLLM推理中阶段性幻觉诊断的基准。ClinHallu包含7,031个经过验证的实例,其中每个实例都附有结构化的推理轨迹,分解为视觉识别(Visual Recognition)、知识回忆(Knowledge Recall)和推理整合(Reasoning Integration)。我们还使用阶段替换干预来测量纠正特定阶段对最终答案的影响。除了评估,我们还展示了轨迹监督微调可以减少阶段性幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理失败提供了一个细粒度的幻觉测试平台。该基准公开在https://github.com/alibaba-damo-academy/ClinHallu。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:05

论文页面 - ClinHallu:用于诊断医学多模态大语言模型推理中阶段性幻觉的基准

来源:https://huggingface.co/papers/2606.14697

摘要

ClinHallu 是一个基准,用于通过阶段性推理分析和轨迹监督微调来诊断和缓解医学多模态大语言模型中的幻觉。

构建可信的医学多模态大语言模型(https://huggingface.co/papers?q=medical%20multimodal%20large%20language%models)对于可靠的临床决策支持至关重要。现有的医学幻觉基准(https://huggingface.co/papers?q=hallucination%20benchmarks)主要关注数据收集,但常常忽略推理过程中幻觉的起源。我们发现幻觉来源因样本而异:错误可能源于视觉识别错误、不正确的医学知识回忆(https://huggingface.co/papers?q=knowledge%20recall)或有缺陷的推理整合(https://huggingface.co/papers?q=reasoning%20integration)。为实现源级别的幻觉诊断,我们引入了 ClinHallu,这是一个用于医学多模态大语言模型推理中阶段性幻觉诊断(https://huggingface.co/papers?q=stage-wise%20hallucination%20diagnosis)的基准。ClinHallu 包含 7,031 个经过验证的实例,每个实例都附带一个结构化的推理轨迹(https://huggingface.co/papers?q=structured%20reasoning%20trace),分解为视觉识别(https://huggingface.co/papers?q=Visual%20Recognition)、知识回忆(https://huggingface.co/papers?q=Knowledge%20Recall)和推理整合(https://huggingface.co/papers?q=Reasoning%20Integration)三个阶段。我们还使用阶段替换干预来测量纠正特定阶段如何影响最终答案。除了评估,我们证明轨迹监督微调(https://huggingface.co/papers?q=trace-supervised%20fine-tuning)能够减少阶段性幻觉。ClinHallu 为诊断和缓解医学多模态大语言模型中的推理失败提供了一个细粒度的幻觉测试平台。该基准公开于 https://github.com/alibaba-damo-academy/ClinHallu。

查看 arXiv 页面(https://arxiv.org/abs/2606.14697)查看 PDF(https://arxiv.org/pdf/2606.14697)GitHub3(https://github.com/alibaba-damo-academy/ClinHallu)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.14697)

在你的代理中获取此论文:

hf papers read 2606.14697

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.14697 以从此页面链接它。

引用该论文的数据集1

Alibaba-DAMO-Academy/ClinHallu 查看器•更新于21分钟前 • 18.4k • 31 • 3 (https://huggingface.co/datasets/Alibaba-DAMO-Academy/ClinHallu)

引用该论文的空间0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2606.14697 以从此页面链接它。

包含该论文的收藏集0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接它。

相似文章

HalluWorld:基于参考世界模型的可控幻觉基准

arXiv cs.CL

HalluWorld 是一个可控基准框架,通过显式的参考世界模型在网格世界、国际象棋和实际终端任务等合成环境中评估大型语言模型中的幻觉。它可以细粒度分析各种故障模式,例如感知幻觉、多步状态追踪和因果模拟,揭示出前沿模型在处理扩展思维无法解决的复杂推理时仍然存在困难。

HalluScore:大语言模型幻觉问答基准

arXiv cs.CL

介绍HalluScore,一个结构化的阿拉伯语问答基准,用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题,已在17个大语言模型上测试。

MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉

arXiv cs.CL

# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。