测量LLMs在误导性医疗语境下的认知韧性

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

介绍了MedMisBench，用于测量LLMs在误导性语境下维持正确医疗推理的能力。结果显示，在对抗性条件下，准确率从71.1%骤降至38.0%，临床专家组指出存在潜在危害。

大型语言模型（LLMs）如今在医学执照考试中达到专家水平分数，这促使人们认为高分意味着安全的医学判断，而患者也越来越多地使用它们获取健康建议。我们证明这种假设是脆弱的：当在LLMs原本回答正确的问题中注入误导性语境时，它们会放弃正确答案。我们将这种在对抗性语境下维持正确判断的能力称为认知韧性，并引入MedMisBench来测量它。MedMisBench包含10,932个医学问题条目和48,889对误导性语境-选项对，涵盖医学推理、代理能力以及患者旅程评估。在11种模型配置中，平均准确率从原始问题的71.1%下降到针对性误导语境下的38.0%，攻击成功率达51.5%。最具破坏性的注入是形式化、类似规则的虚构内容：以权威框架呈现的虚假信息攻击成功率达69.5%，例外投毒主张达64.1%。一个由来自7个国家的14名临床专家组成的小组在38.2%的审查案例中发现了严重潜在危害。MedMisBench揭示了医疗场景中LLM评估的结构性盲点：现有基准衡量的是模型知道什么，而不是它们在误导性语境下是否能保持正确的医学判断。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:03

论文页面 - 测量大型语言模型在误导性医疗语境下的认知韧性

来源：https://huggingface.co/papers/2606.12291 作者：

摘要

大型语言模型在暴露于误导性语境时，其医学推理准确性显著下降，这揭示了当前评估方法中一个关键空白——未能衡量模型在对抗性条件下的认知韧性。

大型语言模型 (LLMs) 如今在医学执照考试 (https://huggingface.co/papers?q=medical%20licensing%20exams) 中已达到专家级分数，这催生了一种假设：高分意味着安全的医学判断能力，而患者正越来越多地使用这些模型获取健康建议。我们证明这一假设是脆弱的：当向模型原本回答正确的题目中注入误导性语境 (https://huggingface.co/papers?q=misleading%20context) 时，它们会放弃正确答案。我们将这种在对抗性语境下保持正确判断的能力称为认知韧性 (https://huggingface.co/papers?q=epistemic%20resilience)，并引入 MedMisBench (https://huggingface.co/papers?q=MedMisBench) 来衡量它。MedMisBench (https://huggingface.co/papers?q=MedMisBench) 包含 10,932 个医学问答条目和 48,889 个误导性语境 (https://huggingface.co/papers?q=misleading%20context)-选项对，覆盖医学推理、智能体能力和患者旅程评估。在 11 个模型配置上，原始问题的平均准确率为 71.1%，而在针对性误导性语境 (https://huggingface.co/papers?q=misleading%20context) 下降至 38.0%，攻击成功率 (https://huggingface.co/papers?q=attack%20success) 达 51.5%。最具破坏性的注入是形式化、规则式的虚假陈述：权威框架虚假信息 (https://huggingface.co/papers?q=authority-framed%20falsehoods) 的攻击成功率 (https://huggingface.co/papers?q=attack%20success) 达 69.5%，例外投毒声明 (https://huggingface.co/papers?q=exception-poisoning%20claims) 达 64.1%。一个来自 7 个国家的 14 人临床专家小组认定，在审查的案例中 38.2% 存在严重潜在危害。MedMisBench (https://huggingface.co/papers?q=MedMisBench) 暴露了 LLM 在医疗场景评估中的一个结构性盲点：现有基准衡量的是模型知道什么，而不是它们在误导性语境 (https://huggingface.co/papers?q=misleading%20context) 下能否保持正确的医学判断。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12291)查看 PDF (https://arxiv.org/pdf/2606.12291)项目页面 (https://huggingface.co/datasets/HongjianZhou/MedMisBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12291)

在你的智能体中获取这篇论文：

hf papers read 2606\.12291

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型关联本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.12291 以在此页面建立链接。

引用本论文的数据集1

HongjianZhou/MedMisBench 查看器• 更新于约 4 小时前 • 10.9k • 1 (https://huggingface.co/datasets/HongjianZhou/MedMisBench)

引用本论文的 Spaces0

没有 Space 关联本论文

请在 Space README.md 中引用 arxiv.org/abs/2606.12291 以在此页面建立链接。

包含本论文的收藏0

没有收藏包含本论文

请将本论文添加到一个收藏 (https://huggingface.co/new-collection) 中以在此页面建立链接。

测量LLMs在误导性医疗语境下的认知韧性

论文页面 - 测量大型语言模型在误导性医疗语境下的认知韧性

摘要

引用本论文的模型0

引用本论文的数据集1

HongjianZhou/MedMisBench 查看器• 更新于约 4 小时前 • 10.9k • 1 (https://huggingface.co/datasets/HongjianZhou/MedMisBench)

引用本论文的 Spaces0

包含本论文的收藏0

相似文章

当正确信念崩溃时：临床压力下LLMs的认知韧性

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

使用项目反应理论审计LLM基准测试

基于认识论权利的LLM二阶偏见评估

人机对话提升急诊诊疗的诊断准确性

提交意见反馈