LLM 无法认知自身知识局限:通过临床表格数据上的跨模型归因差异检测认知盲点

arXiv cs.AI 论文

摘要

本文探讨了大语言模型在结构化临床数据上无法识别自身知识局限的问题,提出了一种跨模型归因差异方法来检测认知盲点。该方法结合少样本示例和 SHAP 衍生的特征证据,无需训练即可改进校准性和准确性。

arXiv:2606.19509v1 公告类型:新 摘要:大语言模型(LLM)越来越多地被应用于结构化临床数据,但它们在这类任务上能否识别自身知识的局限尚未被探索。我们通过跨模型归因差异的视角研究这一问题,旨在减少结构化任务的认知不确定性,通过归因差异分析比较 Qwen 2.5 7B 和 XGBoost 在预测任务上的表现。我们报告了四项发现。首先,LLM 的语言化置信度在认知上是空洞的,无论准确率是 49% 还是 75.3%,它输出的置信度几乎恒定(0.856-0.937),追踪的是提示格式而非预测质量。其次,LLM 表现出反向难度效应:当 XGBoost 正确率为 99% 时,LLM 准确率降至 64.8%,但当 XGBoost 中等不确定时,LLM 与其准确率持平(73.8% vs. 73.1%)。第三,少样本示例和 SHAP 衍生的特征证据是正交的、超加性的干预措施:它们将归因分歧得分(ADS)从 1.54 降至 0.38,并将准确率从 49% 提升至 75.3%,且无需训练。第四,一种利用归因差异信号确定 LLM 可靠性的跨模型校准器,将预期校准误差从 0.254 降至 0.080,用针对患者的可靠性估计取代了无信息量的语言化置信度,且无需访问模型内部或重复推理。我们将这些发现框架化为 LLM 在结构化数据上的冷启动问题,并勾勒出通向真正认知自我意识之路。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:30

# 1 引言  
来源:https://arxiv.org/html/2606.19509  
marginparsep 已被修改。topmargin 已被修改。marginparpush 已被修改。页面布局违反了 ICML 样式。请不要更改页面布局,或包含 geometry、savetrees、fullpage 等会为您更改布局的包。我们无法可靠地撤销对样式的任意更改。请移除违规的包或布局更改命令,然后重试。

**LLM 无法意识到它不知道什么:通过跨模型归因差异检测临床表格数据中的认知盲点**  
*Akshat Dasula¹², Prasanna Desikan¹, Jaideep Srivastava²*

###### 摘要  
大型语言模型(LLM)越来越多地被应用于结构化临床数据,然而它们在处理此类任务时能否识别自身知识的局限,目前仍未得到探索。我们通过跨模型归因差异的视角来研究这一问题,目的是减少结构化任务中的认知不确定性。我们比较了 Qwen 2.5 7B 和 XGBoost 在一项预测任务上的归因差异分析。我们报告了四项发现。第一,LLM 的语言化置信度在认知上是空洞的——无论准确率是 49% 还是 75.3%,它输出的几乎是一个常数(0.856–0.937),追踪的是提示模板而非预测质量。第二,LLM 表现出**反向难度效应**:当 XGBoost 正确率高达 99% 时,LLM 准确率降至 64.8%;但当 XGBoost 中等不确定时,LLM 与 XGBoost 表现相当(73.8% vs. 73.1%)。第三,少样本示例和 SHAP 导出的特征证据是**正交的、超加性的**干预手段:它们将归因分歧分数(ADS)从 1.54 降至 0.38,并在无需训练的情况下将准确率从 49% 提升至 75.3%。第四,一种利用归因差异信号判断 LLM 可靠性的跨模型校准器,将期望校准误差从 0.254 降至 0.080,用患者特异的可靠性估计取代了信息量不足的语言化置信度,无需访问模型内部结构或重复推理。我们将这些发现视为 LLM 在结构化数据上的冷启动问题,并勾勒出通往真正认知自我意识的路径。  

††脚注:¹Centific AI Research  
²美国明尼苏达大学双城分校计算机科学与工程系,明尼阿波利斯市。  
通讯作者:Akshat Dasula <[email protected]>。  
第二届机器学习认知智能研讨会(EIML@ICML 2026),韩国首尔。  
版权 2025 归作者所有。

大型语言模型(LLM)在医学问答、临床笔记总结和诊断推理方面展示了卓越的能力(Singhal 等,2022;Nazi 和 Peng,2024)。这一成功促使人们越来越关注将 LLM 应用于结构化临床预测任务,利用电子健康记录(EHR)数据预测患者结果,如疾病发作、病情恶化和再入院。然而,一个持续存在的实证发现使这一趋势复杂化:基于树的模型(如 XGBoost)在表格预测任务上始终优于 LLM(Brown 等,2025;Grinsztajn 等,2022;Shwartz-Ziv 和 Armon,2022),且优势往往相当显著。先前的工作已在临床数据集和 LLM 系列中记录了这种性能差距(Brown 等,2025),但大多将其视为一个单一的汇总数字——LLM 获得了较低的 AUROC——而没有考察其背后的认知结构。这一差距引发了一个对 LLM 在临床工作流中安全部署至关重要的问题:**LLM 是否知道它不知道什么?** 如果 LLM 对一位危重患者生成了自信但错误的预测,并且没有提供任何信号表明其推理不可靠,那么其后果与一个标记自身不确定性的模型有着本质区别。可靠的 uncertainty 估计不仅是可取的,更是临床部署、监管合规以及负责任地融入人类决策的先决条件。我们表明,在结构化临床表格数据上,LLM 的认知自我意识完全缺失,而且这种缺失具有可识别、可处理的结构。

通过研究 MIMIC-IV(Johnson 等,2023)上的急性肾损伤(AKI)预测任务,我们比较了 XGBoost(AUROC = 0.85)与 Qwen 2.5 7B Instruct(Qwen 等,2025)在四种系统性变化的提示条件下的推理过程。我们并未将性能差距视为单一的失败,而是将其分解为三个认知维度:**LLM 关注什么**(通过 LLM 自述的特征重要性与 XGBoost 的 SHAP 导出归因之间的归因差异来衡量)、**它是否知道自己错了**(通过语言化置信度分析来衡量)以及**它的失败集中在何处**(通过按结构化模型置信度进行不确定性分层来衡量)。我们并不主张 LLM 应取代结构化模型用于临床表格预测。相反,我们关注一个现实问题:LLM 日益与结构化模型一同部署在临床工作流中,但往往未经对其推理、可靠性或认知局限的严格评估。我们的发现如下:

*   **置信度不变性。** 我们表明 LLM 的语言化置信度(Lin 等,2022;Tian 等,2023)由提示模板决定,而非预测质量,在零样本和少样本条件下产生几乎常数,与性能无关。这将先前关于 LLM 过度自信的发现(Xiong 等,2023)扩展为一个更强的论断:在临床表格数据上,语言化置信度不携带任何关于正确性的信息。
*   **反向难度效应。** 当 XGBoost 最自信时,LLM 失败最严重;但在 XGBoost 不确定的区域,LLM 与 XGBoost 表现相当。这揭示了互补的失败模式:LLM 在那些仅靠预训练无法获取的数据特定分布模式上表现挣扎,但在通用医学知识足以应对的地方却增加了真正的价值。
*   **超加性归因对齐。** 少样本示例和 SHAP 导出的特征证据(Lundberg 和 Lee,2017)是正交的干预手段,分别针对 LLM 推理差距中的独立维度。它们在归因对齐方面的联合效果超过了各自效果的总和,在无需任何参数更新的情况下提升性能。
*   **跨模型校准。** 我们构建了一个轻量级校准器,利用跨模型归因差异特征,将期望校准误差降至 0.080,生成患者特异的可靠性估计,无需访问 LLM 内部结构或重复推理。

我们将这些发现描述为 LLM 在结构化数据上的**冷启动问题**:LLM 拥有相关的医学知识,但缺乏方向(该关注哪些特征)和自我评估(应该有多自信)。已部署在临床工作流中的结构化模型可以提供这两者。我们的结果为长期研究奠定了诊断基础:使用跨模型校准目标作为强化学习的奖励信号,最终教会 LLM 内化跨任务的真正认知自我意识。

## 2 相关工作

**LLM 在临床表格数据上的应用。** 将 LLM 应用于结构化 EHR 数据正受到越来越多的关注,因为医院正在探索将语言模型集成到现有临床工作流中。Brown 等(2025)使用 MIMIC-IV 和范德比尔特大学医学中心的数据,系统比较了 GPT-3.5 和 GPT-4 与梯度提升树在临床预测任务上的表现,发现 LLM 在性能、校准和公平性指标上均明显不足。Hegselmann 等(2023)探索了表格分类的少样本提示策略,证明序列化格式和示例选择显著影响 LLM 在结构化数据上的表现。Yildiz 等(2025)回顾了 LLM 用于临床预测的更广阔图景,指出校准差、外部验证有限以及基础设施成本高是持续的障碍。这些工作侧重于比较 LLM 与结构化模型之间的**预测性能**。我们的工作通过比较**推理过程**来补充这一研究方向,不仅考察 LLM 是否给出正确答案,还考察它是否关注相同的特征,以及它是否能识别自己的推理何时不可靠。

**LLM 不确定性估计。** 可靠的 uncertainty 量化对于在安全关键场景中部署 LLM 至关重要,然而这仍然是一个开放的挑战。Xiong 等(2023)提出了一个系统性的黑盒置信度诱导框架,在五个 LLM 和五个数据集上对提示策略、采样方法和聚合技术进行了基准测试。他们的关键发现是 LLM 倾向于过度自信,可能模仿了人类表达自信的模式,从而将语言化置信度确立为一个有问题但被广泛使用的不确定性信号。Heo 等(2024)进一步证明,语言化置信度受任务格式影响而非实际正确性,这引发了其是否适合用于下游决策的问题。Lin 等(2022)引入了教模型用语言表达不确定性的概念,Tian 等(2023)为经过 RLHF 调优的模型提出了诱导策略,发现提示技术可以部分缓解过度自信,但无法消除。我们将这些发现扩展到临床表格预测,并展示了一种定性上更强的失败模式:在结构化 EHR 数据上,LLM 的语言化置信度不仅是不准确校准,而且是完全**不变的**——一个由提示模板决定的常数,不携带任何关于正确性的信息。

**归因分歧。** 可解释人工智能中的分歧问题已有充分记录:应用于同一模型的不同特征归因方法经常产生冲突的重要性排名(Krishna 等,2022)。这一领域的工作主要关注单一模型内方法(SHAP vs. LIME)的比较。最近,跨模型归因比较已发展为一个研究方向。金融表格分类领域的工作发现,LLM 和 LightGBM 的特征归因存在方向性一致(AlMarri 等,2025),确立了即使预测相同结果,LLM 和基于树的模型所关注的特征本质上是不同的。我们将跨模型归因比较扩展到临床数据,并且不仅限于记录分歧:我们利用由此产生的分歧信号来作为不确定性估计和校准的特征。据我们所知,这是首次将归因差异重新用作模型外部不确定性信号的工作。

**校准与选择性预测。** 期望校准误差(ECE)(Guo 等,2017)是评估模型声明置信度是否与实际准确率匹配的标准指标。传统的后处理校准方法(如温度缩放和 Platt 缩放)需要访问模型 logits,这对于闭源 LLM 可能不可用,或在部署中不切实际。共形预测(Vovk 等,2005)提供分布自由的覆盖保证作为后处理包装器,但不修改模型的内部置信度或自我评估——模型仍然意识不到自身的不可靠性。选择性预测方法允许模型在不确定的输入上弃权,以提高接受子集的准确率,但代价是覆盖率的降低。我们的方法与所有这些方法互补:我们构建了一个模型外部校准器,利用跨模型归因信号产生校准后的可靠性估计,既不需要访问 LLM 内部结构,也不需要重复推理。这使得它成为一个轻量级替代方案,适用于计算成本和模型访问限制是实际考量的实时临床部署。

## 3 方法

### 3.1 数据与任务

遵循 Wu 等(2020)的方法,我们在 MIMIC-IV 临床数据库(Johnson 等,2023)上复现了急性肾损伤(AKI)预测任务,其中标签是通过对血清肌酐测量值应用滚动窗口的 KDIGO 准则推导得出的。在根据原始研究的标准筛选就诊记录,得到约 209,000 次入院的人群后,我们提取了一个平衡的初步队列,包含 10,000 次就诊(每类 5,000 例),用于评估二分类任务(AKI:1、2、3 期 vs. 无 AKI)。每次入院由 321 个特征表示,包括分类的生命体征、人口统计学信息、临床分类软件(CCS)诊断代码以及离散化的实验室值——值得注意的是,实验室值被编码为低、正常、高或未知,以捕捉临床医嘱模式以及生理值。对于我们的实验流程,我们按 80/20 划分为训练集(n=8,000)和测试集(n=2,000),以构建 XGBoost 模型,并从测试集中抽取 15% 的 LLM 评估子集(n=300)用于初步结果。

### 3.2 结构化模型:XGBoost

在训练-测试划分上构建了一个 XGBoost 分类器,实现了 AUROC=0.88,准确率=0.83。为了适应 LLM 的上下文限制并确保输入简单,我们将特征空间缩减至最具影响力的前 50 个变量,重新拟合该子集后模型性能保持不变,确认了预测完整性得以维持。在指定用于 LLM 评估的 300 样本子集上,模型达到了 AUROC≈0.85,准确率≈0.823。对于该子集中的每次就诊,我们记录了模型的预测标签、置信度分数以及前五个局部特征归因,包括其重要性分数和通过 SHAP(Lundberg 和 Lee,2017)提取的方向性影响。该模型将用于提供基准,并作为后续 LLM 实验的参考。

### 3.3 LLM 实验

为解决敏感医疗数据固有的隐私问题,我们使用本地托管的 Qwen 2.5 7B Instruct 模型(Qwen 等,2025)进行了初步实验。我们在四种实验条件下评估了该模型在 300 样本测试集上的表现:(1) **零样本(ZS)**,使用序列化的患者特征和预测提示;(2) **ZS + SHAP**,提示中补充了 XGBoost 模型的前 5 个 SHAP 特征及其重要性分数和方向;(3) **少样本(FS)**,包含四个分类……

相似文章

当正确信念崩溃时:临床压力下LLMs的认知韧性

arXiv cs.AI

本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。

信任却未验证:大型语言模型来源评估中的认知盲区

arXiv cs.LG

这篇论文识别了大型语言模型(LLM)中的一个失败模式:在综合多个来源时,模型不会验证数值统计的有效性,而是依赖分析严谨性的文体标记。作者将此称为“认知对齐”(epistemic alignment),并表明该现象在多个模型和领域中持续存在,且抵制基于提示的缓解措施。