当正确信念崩溃时：临床压力下LLMs的认知韧性

arXiv cs.AI 2026/05/26 04:00 论文

llm clinical robustness fine-tuning epistemic-resilience sycophancy correction

摘要

本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念，提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性，并在医学基准测试中展示了显著的鲁棒性提升。

arXiv:2605.23932v1 公告类型: 新摘要: 尽管在医学基准测试中表现优异，但LLMs在临床对话中可能表现出严重的多轮谄媚行为，在逐步升级的压力下放弃最初正确的诊断。我们提出 \textbf{\textsc{Med-Stress}}，一个针对性的压力测试框架，用于评估在逐步升级压力下信念的稳定性。对九个前沿大型语言模型（LLMs）的研究发现，医学知识与鲁棒性之间存在明显分离：高初始诊断能力并不代表高信念稳定性，导致多个LLMs存在较大的知识-鲁棒性差距。为缓解这一失效模式，我们提出了一种轻量级的推理时防御方法 \textbf{\texttt{RBED}}（\textbf{R}ole-\textbf{B}ased \textbf{E}pistemic \textbf{D}efense，基于角色的认知防御），以及一种训练时方法 \textbf{\texttt{R-FT}}（\textbf{R}esilience-oriented \textbf{F}ine-\textbf{T}uning，面向韧性的微调），该方法将基于证据的抗压能力内化。实验表明，\textbf{\texttt{R-FT}} 几乎消除了信念变化，并显著提升了鲁棒性。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:00

# 临床压力下大语言模型的认知韧性 来源：https://arxiv.org/html/2605.23932

## 配置

|  | MR@1 \(↓\\downarrow\) | MR@2 \(↓\\downarrow\) | MR@3 \(↓\\downarrow\) |
| :--- | :--- | :--- | :--- |
| \\rowcolorLightGray | Qwen3-4B |  |  |
|  | Vanilla | 5.90% | 15.85% | 19.59% |
|  | RBED | 1.82% | 4.46% | 5.06% |
|  | R-FT | 0.08% | 0.08% | 0.08% |
| \\rowcolorLightGray | Llama-3.1-8B |  |  |
|  | Vanilla | 73.84% | 92.37% | 98.45% |
|  | RBED | 65.96% | 83.54% | 92.00% |
|  | R-FT | 0.16% | 0.16% | 0.16% |

## 训练与结果

我们使用此数据集对 Qwen3-4B 和 Llama-3.1-8B 进行了 LoRA 微调。如第6.3节 (https://arxiv.org/html/2605.23932#S6.SS3) 所总结，R-FT 为这些模型提供了显著的鲁棒性。值得注意的是，如脚注6 (https://arxiv.org/html/2605.23932#footnote6) 所示，微调后的模型不仅在鲁棒性方面有显著提升，其初始诊断能力也得到了增强。这表明 R-FT 有效地巩固了模型的基础医学知识，同时注入了认知信念。各种压力策略下的详细性能指标记录于附录 A.3 (https://arxiv.org/html/2605.23932#A1.SS3) 中。

**表 4：** 不同防御策略对 Llama-3.1-8B 的 IDC 和 BSP 的影响。666仅作用于推理时的配置（警告提示和 RBED）会保留第0轮的准确率不变，因此在此匹配评估设置下与原始模型的 IDC 相同。

| 配置 | IDC\(↑\)(\\uparrow) | BSP\(↑\)(\\uparrow) |
| :--- | :--- | :--- |
| 警告提示 (Xue 等人, 2024 (https://arxiv.org/html/2605.23932#bib.bib30)) | 68.25 | 1.38 |
| 原始模型 (Vanilla) | 68.25 | 1.55 |
| RBED | 68.25 | 8.00 |
| DuET-PD (Tan 等人, 2025 (https://arxiv.org/html/2605.23932#bib.bib13)) | 74.38 | 11.23 |
| PBT (Stengel-Eskin 等人, 2025 (https://arxiv.org/html/2605.23932#bib.bib14)) | 74.50 | 61.40 |
| R-FT | 76.88 | 99.84 |
| RBED+R-FT | 76.88 | 99.87 |

## 消融研究

为了区分我们训练课程的效果与教师模型推理能力的影响，我们进行了一项受控消融实验：仅使用 DeepSeek-R1 生成的单轮正确推理路径（第0轮）对 Llama-3.1-8B 进行微调，排除所有后续的对抗性交互。基于高质量思维链的微调将鲁棒性从原始模型的 1.55% 提升至 6.38%；然而，与脚注6 (https://arxiv.org/html/2605.23932#footnote6) 的比较显示，这一结果仍远低于完整 R-FT 所达到的 99.84%。这些结果表明，仅凭优秀的推理模式并不足以保证鲁棒性。相反，在逐步升级的压力下保持正确诊断的能力对于缓解谄媚行为至关重要。

### 6.4 面对有效纠正性证据的可纠正性

为了评估鲁棒性的提升是否损害了适当的信念修正能力，我们在相同的 800 题测试平台上引入了一个理性更新协议。对于初始回答错误的情况，我们提供有效的纠正性临床证据并测量纠正率；对于初始回答正确的情况，我们施加非证据性压力并要求模型保持原有判断。总体指标结合了这两项要求。

**表 5：** 统一协议下的鲁棒性-可纠正性权衡。

| 方法 | 纠正率\(↑\)(\\uparrow) | 总体\(↑\)(\\uparrow) |
| :--- | :--- | :--- |
| DuET-PD | 98.01% | 35.69% |
| PBT | 78.43% | 68.38% |
| R-FT | 59.69% | 90.00% |

如表5 (https://arxiv.org/html/2605.23932#S6.T5) 所示，我们观察到鲁棒性与可纠正性之间存在权衡：更容易接受纠正性证据的模型在对抗性压力下往往不够稳定，而针对压力下坚持性进行优化的模型则可能变得难以纠正。

### 6.5 通用领域的说服鲁棒性

除医学基准外，我们在 FARM (Xue 等人, 2024 (https://arxiv.org/html/2605.23932#bib.bib30))（一个通用领域的错误信息说服基准）上进行了评估。更高的分数表示更强的信念稳定性。

**表 6：** FARM 上的通用领域鲁棒性 (BSP)。

| 配置 | NQ1 | NQ2 | TruthfulQA | BoolQ |
| :--- | :--- | :--- | :--- | :--- |
| 原始模型 (Vanilla) | 0.25 | 0.40 | 0.50 | 0.37 |
| RBED | 0.32 | 0.50 | 0.72 | 0.55 |
| R-FT | 0.63 | 0.72 | 0.86 | 0.69 |

在此领域外场景中，RBED 和 R-FT 均将鲁棒性提升至原始模型之上，这表明缓解信号并不仅限于医学考试式问答。

## 对通用能力的影响

为评估 R-FT 是否带来对齐代价，我们在 MMLU 基准 (Hendrycks 等人, 2021 (https://arxiv.org/html/2605.23932#bib.bib25)) 的领域外子集上对 R-FT 模型进行了评估。如表7 (https://arxiv.org/html/2605.23932#S6.T7) 所示，R-FT 保持了通用性能，并在数学和哲学等逻辑密集型领域取得了改进。我们假设这些提升源于结构化推理模式的蒸馏，但我们不主张因果归因。详细的案例研究在附录 G (https://arxiv.org/html/2605.23932#A7) 中提供。

**表 7：** MMLU 上的通用能力评估。

| MMLU 子集 | 原始模型 (Vanilla) | R-FT | Δ\\Delta (pp) |
| :--- | :--- | :--- | :--- |
| 计算机安全 | 77.00% | 77.00% | +0.00 |
| 高中数学 | 55.19% | 69.63% | +14.44 |
| 哲学 | 55.95% | 71.06% | +15.11 |
| 世界宗教 | 84.21% | 83.04% | -1.17 |

## 表征工程作为诊断探针

仅凭行为评估无法区分 R-FT 的鲁棒性提升源于系统性的表征变化还是表面的模式记忆 (Xue 等人, 2024 (https://arxiv.org/html/2605.23932#bib.bib30))。因此，我们使用 RepE 作为诊断和探针工具进行表征层面的分析，以补充表面指标。具体实现细节见附录 B (https://arxiv.org/html/2605.23932#A2)。

## 7 结论

通过 Med-Stress，我们发现许多初始诊断能力较强的大语言模型在多轮临床压力下仍会出现显著的信念衰减，这表明鲁棒性并不能仅由知识保证。我们进一步通过 IDC/BSP 量化了一致的知识-鲁棒性分离现象：前沿模型可能拥有高 IDC 但低 BSP，使得正确的诊断能被权威或逻辑陷阱所覆盖。在防御策略中，RBED 是一种可即时部署的提示层面基线，但其效果受限于底层表征；而 R-FT 则直接将韧性内化到模型中，实现了近乎完全的缓解。总体而言，我们的研究结果促使我们超越单轮准确率，在高风险医疗环境中转向对多轮认知韧性的明确评估与训练。

## 局限性

虽然我们的研究评估了医疗大语言模型在逐步升级的临床压力下的信念韧性与口头遵从性，但我们注意到以下几点局限性。

**压力组合。** Med-Stress 对每种压力策略进行独立应用，以便进行归因控制。真实的临床说服可能组合多种策略，将基准扩展到混合压力场景是一个有前景的方向。

**机制层面的粒度。** 我们的 RepE 分析为 R-FT 模型的残差流（第12层；附录 B (https://arxiv.org/html/2605.23932#A2)）中存在的全局韧性相关方向提供了证据，但尚未定位导致易感性的细粒度组件。更细粒度的因果方法可以进一步完善这一图景。

**韧性 vs. 适当更新。** 我们的鲁棒性指标针对的是未引入新证据时，模型抵抗无根据压力的能力。虽然我们还在第6.4节 (https://arxiv.org/html/2605.23932#S6.SS4) 中补充报告了理性更新评估，但全面刻画不同模型家族和训练目标下的鲁棒性-可纠正性权衡仍然是一个开放方向。

## 伦理声明

本工作介绍了 Med-Stress，一个用于评估和缓解基于大语言模型的医疗对话中临床谄媚行为的框架。我们强调以下几点伦理考量。

**双重用途风险。** Med-Stress 包含多轮对抗性提示（例如，权威压力和安全压力），这些对于压力测试模型行为是必要的，但也可能被误用于操纵模型输出。该框架仅用于红队攻防和防御性研究，我们反对任何恶意或临床滥用行为。

**面对安全压力的抵抗范围。** 我们的 R-FT 提高了模型面对非证据性压力的认知稳定性，即模型在没有新临床证据的情况下是否会放弃初始正确判断。这不应被理解为训练模型在部署时忽视合理的安全警告。现实世界的临床系统必须保持可纠正性，并在提出安全风险时遵从适当的人类监督。

**数据、隐私与预期用途。** 我们使用公开可用的基准（例如，MedQA、PubMedQA）和合成数据；所有实验均在去标识化内容上进行，不涉及私人患者信息。由于存在幻觉风险，所有输出仅供研究使用，不得作为临床建议或用于现实世界决策。

## 致谢

本工作得到国家自然科学基金 [批准号 62576126] 及黑龙江省自然科学基金 [批准号 2023ZX01A11] 的部分支持。

## 参考文献

- 关于医疗领域大语言模型可信度的综述。arXiv 预印本 arXiv:2502.15871。引用自：§2.2 (https://arxiv.org/html/2605.23932#S2.SS2.p1.1)。
- Anthropic (2025). 介绍 Claude 4：用于编码和推理的下一代模型。注：https://www.anthropic.com/news/claude-4。引用自：§4.2 (https://arxiv.org/html/2605.23932#S4.SS2.p1.1)。
- A. Arditi, O. Obeso, A. Syed, D. Paleka, N. Panickssery, W. Gurnee, 和 N. Nanda (2024). 语言模型中的拒绝由单一方向介导。《神经信息处理系统进展》, 37, 第 136037–136083 页。引用自：§2.3 (https://arxiv.org/html/2605.23932#S2.SS3.p1.1)。
- H. Chen, Z. Fang, Y. Singla, 和 M. Dredze (2025a). 基准测试大语言模型回答和解释具有挑战性的医学问题。载于《2025年北美计算语言学会人类语言技术会议论文集（第1卷：长论文）》，第 3563–3599 页。引用自：§1 (https://arxiv.org/html/2605.23932#S1.p1.1)。
- J. Chen, Z. Cai, K. Ji, X. Wang, W. Liu, R. Wang, J. Hou, 和 B. Wang (2024a). HuatuoGPT-o1，迈向基于大语言模型的医学复杂推理。外部链接：2412.18925, 链接 (https://arxiv.org/abs/2412.18925)。引用自：§4.2 (https://arxiv.org/html/2605.23932#S4.SS2.p1.1)。
- S. Chen, M. Gao, K. Sasse, T. Hartvigsen, B. Anthony, L. Fan, H. Aerts, J. Gallifant, 和 D. S. Bitterman (2025b). 当乐于助人适得其反：大语言模型与因谄媚行为导致的虚假医学信息风险。《npj 数字医学》, 8(1), 第 605 页。引用自：§1 (https://arxiv.org/html/2605.23932#S1.p4.1), §2.2 (https://arxiv.org/html/2605.23932#S2.SS2.p1.1)。
- W. Chen, Z. Huang, L. Xie, B. Lin, H. Li, L. Lu, X. Tian, D. Cai, Y. Zhang, W. Wang 等人 (2024b). 从应声虫到真相讲述者：通过精准调整解决大语言模型中的谄媚问题。载于《国际机器学习会议》，第 6950–6972 页。引用自：§2.1 (https://arxiv.org/html/2605.23932#S2.SS1.p1.1)。
- X. Chen, J. Xiang, S. Lu, Y. Liu, M. He, 和 D. Shi (2025c). 评估大语言模型及代理在医疗领域的应用：临床应用中的关键挑战。《智能医学》。引用自：§1 (https://arxiv.org/html/2605.23932#S1.p2.1)。

当正确信念崩溃时：临床压力下LLMs的认知韧性

相似文章

测量LLMs在误导性医疗语境下的认知韧性

基于元认知反馈的强化学习激发大语言模型中的忠实不确定性表达

评估大语言模型在多轮医疗对话中的误解纠正能力

大型语言模型能否对检索到的信息保持审慎态度？

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

提交意见反馈