我对8个LLM在医疗记录方面进行了基准测试。幻觉罕见;遗漏需关注。
摘要
对8个LLM在医疗记录中的基准测试发现,幻觉很少,但遗漏需要引起注意。
暂无内容
相似文章
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
PRISM:探究大语言模型幻觉中的推理、指令与源记忆
研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。
ClinHallu:用于诊断医疗多模态大语言模型推理中阶段性幻觉的基准
ClinHallu是一个基准,通过将推理分解为视觉识别、知识回忆和推理整合阶段,并使用轨迹监督微调来减少错误,从而诊断和缓解医疗多模态大语言模型中的幻觉。
无害原则?网络部署的医疗大语言模型中的幻觉与行为体层级滥用
本文对医疗大语言模型(包括定制MedGPT和开源模型)进行了大规模评估,发现其中25-30%的模型事实准确性较低,33.6-54.3%的模型违反操作阈值,揭示了系统性的安全风险。