测量LLMs在误导性医疗语境下的认知韧性
摘要
介绍了MedMisBench,用于测量LLMs在误导性语境下维持正确医疗推理的能力。结果显示,在对抗性条件下,准确率从71.1%骤降至38.0%,临床专家组指出存在潜在危害。
查看缓存全文
缓存时间: 2026/06/15 09:03
论文页面 - 测量大型语言模型在误导性医疗语境下的认知韧性
来源:https://huggingface.co/papers/2606.12291 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
大型语言模型在暴露于误导性语境时,其医学推理准确性显著下降,这揭示了当前评估方法中一个关键空白——未能衡量模型在对抗性条件下的认知韧性。
大型语言模型 (LLMs) 如今在医学执照考试 (https://huggingface.co/papers?q=medical%20licensing%20exams) 中已达到专家级分数,这催生了一种假设:高分意味着安全的医学判断能力,而患者正越来越多地使用这些模型获取健康建议。我们证明这一假设是脆弱的:当向模型原本回答正确的题目中注入误导性语境 (https://huggingface.co/papers?q=misleading%20context) 时,它们会放弃正确答案。我们将这种在对抗性语境下保持正确判断的能力称为认知韧性 (https://huggingface.co/papers?q=epistemic%20resilience),并引入 MedMisBench (https://huggingface.co/papers?q=MedMisBench) 来衡量它。MedMisBench (https://huggingface.co/papers?q=MedMisBench) 包含 10,932 个医学问答条目和 48,889 个误导性语境 (https://huggingface.co/papers?q=misleading%20context)-选项对,覆盖医学推理、智能体能力和患者旅程评估。在 11 个模型配置上,原始问题的平均准确率为 71.1%,而在针对性误导性语境 (https://huggingface.co/papers?q=misleading%20context) 下降至 38.0%,攻击成功率 (https://huggingface.co/papers?q=attack%20success) 达 51.5%。最具破坏性的注入是形式化、规则式的虚假陈述:权威框架虚假信息 (https://huggingface.co/papers?q=authority-framed%20falsehoods) 的攻击成功率 (https://huggingface.co/papers?q=attack%20success) 达 69.5%,例外投毒声明 (https://huggingface.co/papers?q=exception-poisoning%20claims) 达 64.1%。一个来自 7 个国家的 14 人临床专家小组认定,在审查的案例中 38.2% 存在严重潜在危害。MedMisBench (https://huggingface.co/papers?q=MedMisBench) 暴露了 LLM 在医疗场景评估中的一个结构性盲点:现有基准衡量的是模型知道什么,而不是它们在误导性语境 (https://huggingface.co/papers?q=misleading%20context) 下能否保持正确的医学判断。
查看 arXiv 页面 (https://arxiv.org/abs/2606.12291)查看 PDF (https://arxiv.org/pdf/2606.12291)项目页面 (https://huggingface.co/datasets/HongjianZhou/MedMisBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12291)
在你的智能体中获取这篇论文:
hf papers read 2606\.12291
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
没有模型关联本论文
请在模型 README.md 中引用 arxiv.org/abs/2606.12291 以在此页面建立链接。
引用本论文的数据集1
HongjianZhou/MedMisBench 查看器• 更新于约 4 小时前 • 10.9k • 1 (https://huggingface.co/datasets/HongjianZhou/MedMisBench)
引用本论文的 Spaces0
没有 Space 关联本论文
请在 Space README.md 中引用 arxiv.org/abs/2606.12291 以在此页面建立链接。
包含本论文的收藏0
没有收藏包含本论文
请将本论文添加到一个收藏 (https://huggingface.co/new-collection) 中以在此页面建立链接。
相似文章
当正确信念崩溃时:临床压力下LLMs的认知韧性
本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
使用项目反应理论审计LLM基准测试
本文介绍了一种基于项目反应理论的方法,能够以95%的准确率检测LLM基准测试中的错误标注示例,并将错误追溯到标注启发式方法和注释问题。
基于认识论权利的LLM二阶偏见评估
本文介绍了“二阶偏见”,即LLM在判断有偏见内容时所表现出的偏见,并提出了一种基于认识论权利的推理任务来评估它。实验表明,该任务能够规避安全护栏,并揭示LLM评判者中系统性的群体偏见。
人机对话提升急诊诊疗的诊断准确性
本研究评估了通过与大型语言模型(LLM)的交互式对话(通过 MedSyn 系统)如何提高急诊科医生在急诊环境中的诊断准确性,结果显示住院医师在处理疑难病例时的诊断准确率有显著提升。