我对8个LLM在医疗记录方面进行了基准测试。幻觉罕见；遗漏需关注。

Reddit r/LocalLLaMA 2026/06/23 16:20 新闻

llm medical-scribing benchmarking hallucinations healthcare-ai evaluation

摘要

对8个LLM在医疗记录中的基准测试发现，幻觉很少，但遗漏需要引起注意。

暂无内容

查看原文

相似文章

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集，研究了标准基准是否低估了大语言模型（LLM）的性能。研究发现，在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性，并表明针对容易产生歧义的任务，采用模型辅助的重新评估能产生更可靠的基准。

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影，其中真实答案被嵌入到提示中，使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估，作者证明，在适当控制下，大多数方法的表现接近随机水平，除了对上层隐藏状态的监督探针（如SAPLMA）以及他们提出的DRIFT。

arXiv cs.CL

研究人员提出了 PRISM 诊断基准，该基准将大语言模型（LLM）的幻觉拆解为四个维度（知识缺失/错误、推理错误、指令遵循错误），涵盖三个生成阶段（记忆、指令、推理），并通过评估 24 款大语言模型，揭示了各类缓解策略之间存在的权衡关系。

Hugging Face Daily Papers

ClinHallu是一个基准，通过将推理分解为视觉识别、知识回忆和推理整合阶段，并使用轨迹监督微调来减少错误，从而诊断和缓解医疗多模态大语言模型中的幻觉。

arXiv cs.CL

本文对医疗大语言模型（包括定制MedGPT和开源模型）进行了大规模评估，发现其中25-30%的模型事实准确性较低，33.6-54.3%的模型违反操作阈值，揭示了系统性的安全风险。