反事实评估揭示临床大语言模型和智能体的隐藏能力画像

arXiv cs.LG 2026/06/01 04:00 论文

clinical-ai llm-evaluation counterfactual causal-sensitivity agent-evaluation benchmark healthcare

摘要

本文介绍了因果敏感性得分（CSS），一种干预性指标，用于评估临床大语言模型和智能体在患者输入沿临床意义维度变化时，是否适当地更新其建议。该指标揭示了标准覆盖度指标未能捕捉的隐藏能力画像，暴露了安全盲点和结构性响应能力缺陷。

arXiv:2605.30590v1 Announce Type: new 摘要：两个临床AI系统在基于覆盖度的评分标准上得分几乎相同，但当患者输入发生变化时，它们的行为却截然不同：一个系统会更新其建议以匹配新的临床信号，而另一个则无论输入如何都产生相同的输出。我们引入了因果敏感性得分（CSS），这是一种预先注册的干预性指标，它沿五个临床意义维度——生物标志物翻转、先前治疗失败、生物标志物移除、手术状态变化和分期扰动——对肿瘤多学科会诊病例进行变异，并使用{0, 0.5, 1.0}量表对每个模型是否以预先注册的正确方向更新其建议进行评分。与共识匹配得分（CMS）（一种基于覆盖度的加权召回指标）相比，来自三个实验室的六个前沿模型在224个病例上的单次推理评估中排名几乎完全相反：所有六个模型的排名都发生了变化，CMS最差的模型变成了CSS最好的模型，而一个中上水平的CMS模型在CSS上排名最后。我们进一步发现了一个普遍的安全盲点：每个前沿模型在手术状态干预上都失败（家族D的CSS最多为17.2%），这是CMS未能揭示的发现。该指标也适用于使用工具的智能体：在类似于ReAct的实验中，使用工具提高了六个模型中的五个的CSS（提高了2.5到20.3个百分点），但CSS最低的模型检索了相同的图表部分，仍然未能更新其建议——这揭示了一种仅在反事实评估下可见的结构性响应能力缺陷。跨评估者复制和三评估者医学专业验证确认了总体发现。像CSS这样的干预性预先注册指标补充了临床AI智能体的基于覆盖度的评估：它们捕捉了覆盖度指标遗漏的响应能力，并为未来的智能体强化学习系统提供了候选的密集奖励信号。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:27

# 反事实评估揭示临床LLM与智能体的隐藏能力画像

来源：https://arxiv.org/html/2605.30590

###### 摘要

两个临床AI系统在基于覆盖度的评分标准上得分几乎相同，但当患者输入发生变化时，它们的行为可能截然不同：一个会更新其建议以匹配新的临床信号，另一个则无论输入如何都产生相同的输出。标准评估无法区分它们。我们引入了因果敏感性评分（CSS），这是一种预先注册的干预性指标，它对肿瘤多学科会诊病例沿五个临床有意义的维度（生物标志物翻转、既往治疗失败、生物标志物移除、手术状态变化、分期扰动）进行变异，并以{0,0.5,1.0}评分各模型的建议是否按预先注册的正确方向更新。与已发表的共识匹配评分（CMS，一种基于覆盖度的加权召回率）进行基准比较，来自三个实验室的六个前沿模型在224个病例的单次推理中，两种指标的排名几乎相反：所有六个模型排名均发生变化，CMS最差的模型成为CSS最好的模型，而一个在CMS上排名中上的模型在CSS上垫底。我们进一步发现一个普遍的安全盲点，在我们预先注册的评分规则下：每个前沿模型在手术状态干预（D族CSS≤17.2%）上均失败，这是CMS未能揭示的发现。该指标可直接迁移至使用工具的智能体：一个ReAct风格实验表明，工具使用使五个模型（共六个）的CSS提升（+2.5至+20.3个百分点），然而CSS最低的模型与其他模型检索相同的病历章节，却仍未更新其建议，这表明存在一种只有在反事实评估下才能显现的结构性响应能力缺陷。跨评判者复现与三位医学专业人员的验证确认了总体发现。像CSS这样的干预性预先注册指标是对临床AI智能体基于覆盖度评估的补充：它们捕捉了覆盖度无法提供的响应性信号，并为未来的智能体强化学习提供了一个候选的密集奖励。

反事实评估，因果敏感性，智能体评估，强化学习奖励信号，大语言模型作为评判者，临床AI

††版权声明：无
††会议：RLEval：评估AI智能体的方法与强化学习环境；2026年5月26日；加利福尼亚州圣何塞

## 1. 引言

LLM和基于LLM的智能体越来越多地部署于临床AI（治疗方案推荐、分诊、多学科会诊总结），评估决定它们能否投入使用。主流范式通过字符串相似度或LLM作为评判者的评分标准（Zheng等人，2024；Liang等人，2023）对比参考行为来评分输出。两者都问：*输出看起来正确吗？* 两者都不问：*模型是否因正确原因更新了输出？* 一个针对胰腺癌病例建议FOLFIRINOX方案的肿瘤AI，在基于覆盖度的指标上得分相同，无论患者是初治还是该模型只是对所有胰腺癌病例都建议FOLFIRINOX。

**这对智能体评估为何重要。** 前沿部署越来越多地采用可自主获取患者信息的使用工具的智能体。对智能体输出进行基于覆盖度的评估面临更尖锐的“看起来正确”与“实际上正确”的问题：一个智能体可以进行多次工具调用，检索到正确信息，但仍可能产生忽略其发现结果的建议。干预性指标是天然适合的，因为它们评估的是*行为响应性*：当智能体的工具返回结果发生变化时，其输出是否适当地更新了？

我们引入了因果敏感性评分（CSS），一种预先注册的干预性指标。对于每次干预（翻转HER2状态、注入一个既往失败的治疗、移除生物标志物提及、切换手术状态等），CSS以{0,0.5,1.0}评分建议是否按预先注册的正确方向更新。我们在两种设置中评估来自三个实验室的六个前沿模型（OpenAI：gpt-5, gpt-5.4, gpt-5.4-mini；Anthropic：claude-opus-4-7, claude-sonnet-4-6；xAI：grok-4.20-0309-reasoning）：在所有224个专家注释的多学科会诊病例上进行单次LLM推理（§4），以及在一个使用工具的ReAct智能体（Yao等人，2023）上，针对100个D族病例元组进行实验，其中干预通过工具返回而非提示词传播（§4.6）。

我们的发现：

- • **排名反转（单次推理）。** CMS和CSS对六个模型的排名几乎相反（ρ = -0.49；全部六个模型排名均变化）；CMS最差的模型是CSS最好的，而gpt-5.4在CMS上排名中上（第4/6位）却在CSS上垫底。所有六个模型在D族（手术状态）上均失败，根据预先注册的评分规则，CSS≤17.2%，这是CMS未能暴露的普遍失败。
- • **智能体迁移。** CSS无需修改即可迁移至使用工具的智能体。工具使用使五个模型（共六个）在D族上的CSS提升（+2.5至+20.3个百分点）；gpt-5.4基本不变，尽管其检索了与响应性五个模型相同的病历章节，提示存在结构性响应能力而非信息获取问题。
- • **验证。** 跨评判者复现（统一使用Opus）保持了排名顺序（ρ = +1.00）；三位医学专业人员在100元组子集上的注释确认了按家族划分的总体失败率（D族：LLM均值0.10 vs. 人类均值0.09）。

## 2. 方法

### 2.1. 预先注册的干预目录

我们策划了12种干预措施，涵盖五个临床动机明确的家族（表1）。每种干预都在一个YAML目录中指定，包含五个字段，所有字段在*任何*模型被评估之前就已提交：适用性过滤器、变异规则（正则表达式替换/删除/插入）、预先注册的预期输出变化、{0,0.5,1.0}评分规则，以及家族标签A–E（完整模式见附录A）。

表1. 预先注册的干预家族。“合格”指通过目录适用性过滤器的元组数；每个家族评分n在表3中，排除了正则表达式无操作变异（附录G），例如，153个合格的C家族元组中有73个产生无操作并被剔除。预先注册排除了事后选择家族以及“为适配结果而设计的指标”的批评。目录和评分规则由作者撰写，尚未经过独立的临床验证（附录M）。

### 2.2. 因果敏感性评分

对于每个适用的（模型m，干预i，病例c）三元组，我们从未修改的病历包生成基线建议，从变异的病历包生成干预建议。一个评判者LLM接收两者、预先注册的预期变化以及评分规则，并输出{0.0, 0.5, 1.0}（分别对应：无变化 / 已承认但未更新 / 正确更新）。每个元组通过一个两阶段流程处理（病例摘要 → 建议）；评判者仅看到建议。CSS是跨所有（c, i）元组得分的均值，包括总体和各家族。

**避免自评。** 我们默认使用gpt-5.4作为评判者，当被测试模型为gpt-5.4时，使用claude-opus-4-7作为评判者，这与之前关于自我偏好的发现（Zheng等人，2024）一致。§4.5报告了统一使用Opus的复现结果。

### 2.3. 推广至使用工具的智能体

CSS仅需要（a）允许预先注册的反事实变异的输入，以及（b）一个可预先指定的正确输出更新方向。两者都直接迁移至使用工具的智能体，其中变异可以应用于工具返回（例如，翻转知识库检索）、规划状态或环境观察。我们报告的单次推理设置是最干净的控制实验；§4.6对ReAct智能体运行相同的协议，并表明该指标及其发现可以迁移。

## 3. 实验设置

**队列。** 224个肿瘤多学科会诊病例，每个都有按时间顺序的患者病历包（中位数约8万字符）和经过两轮专家肿瘤学家共识方案得出的金标准治疗建议。治疗建议标记为：强（明确共识）、默示（默示共识）、混合（混合证据）、拒绝（明确拒绝）。

**模型。** 如§1所列的六个前沿模型，通过官方API以默认温度调用。

**比较指标：共识匹配评分（CMS）。** 一种针对肿瘤学家共识治疗列表的已发表加权召回率：
CMS = 0.6R_强 + 0.2R_默示 + 0.15(1 - V_拒绝) + 0.05P_额外，
其中R_强和R_默示分别是强共识和默示共识治疗的召回率，V_拒绝是推荐被拒绝治疗的比例，P_额外是评判者评定的清单外建议的合理性。CMS衡量的是*输出覆盖度*（建议是否与共识重叠）；相比之下，CSS衡量的是*输入响应性*。

## 4. 结果

### 4.1. CMS与CSS之间的排名不一致

参见图注。图1. 三个实验室六个前沿模型在CMS与CSS之间的排名不一致。斯皮尔曼ρ = -0.49（n=6时精确排列p=0.36，统计功效不足）；所有六个模型在两个指标间排名均发生变化。CMS最差的模型（grok-4.20-reasoning）是CSS最好的；CMS最好的（gpt-5）在CSS上排第四。

表2. 摘要：六个前沿模型的CMS与CSS对比。两个指标的排名几乎相反。表2和图1显示了摘要。六个模型在CMS上聚类于13.1个百分点内（0.480–0.610），但在CSS上跨度16.4个百分点（0.309–0.473）；斯皮尔曼ρ = -0.49（n=6时精确排列p=0.36，统计功效不足）。*全部六个*模型排名均变化：最显著的翻转是grok-4.20-reasoning（CMS第6 → CSS第1）和gpt-5（CMS第1 → CSS第4）。我们将排名不一致视为描述性模式；增加模型将加强推断性结论。

### 4.2. 按家族划分的能力画像

参见图注。图2. 六个前沿模型按家族划分的CSS，小倍数视图。不同模型在不同家族获胜：claude-opus-4-7在生物标志物识别（A）上，gpt-5在生物标志物移除（C）上，grok-4.20在既往治疗（B）和手术状态（D）上。所有六个模型在D族灾难性失败。

表3. 六个模型在五个干预家族上的按家族CSS。粗体 = 每行胜者。表3按干预家族分解CSS。不同模型在不同家族获胜：claude-opus-4-7在生物标志物翻转（A）上；gpt-5在生物标志物移除（C）上；grok-4.20在既往治疗失败（B）和手术状态（D）上。gpt-5.4在A、B、D上垫底；在C上排名第二（仅次于gpt-5）。这种按家族分解揭示了聚合指标所掩盖的能力画像。（E家族，分期扰动，仅有n=5个合格病例；我们不对其下结论，附录K。）

### 4.3. 普遍失败模式：D家族

手术状态干预中表现最好的模型（grok-4.20）得分为17.2%；最差的（gpt-5.4）得分为3.9%。*来自每个实验室的每个前沿模型*在手术状态翻转时都无法正确更新治疗建议。这是一个临床有意义的发现（治疗方案时机完全取决于患者是否已切除），而CMS无法揭示，因为CMS仅检查建议与共识的覆盖度，而非反事实下的行为变化。

### 4.4. 得分分布诊断

表4. 各模型得分分布。“错误”=0.0，“部分”=0.5，“正确”=1.0。得分分布（表4）具体说明了两种失败模式：gpt-5.4有60%的错误方向/21%的正确方向（“CMS看起来不错，但结构性响应较差”的情况）；grok-4.20-reasoning则相反，具有最低的错误方向率（40.8%）和次高的正确率（35.4%）。

### 4.5. 评判者敏感性（跨评判者复现）

为了排除非对称评判者分配作为混杂因素，我们使用claude-opus-4-7作为*所有*模型的单一评判者，重新评判所有4,727个元组。两种配置下的排名顺序相同（斯皮尔曼ρ = +1.00）；五个跨评判模型的{0,0.5,1.0}上各模型间的评判者间κ为0.61–0.69。Opus是比gpt-5.4更严格的评判者：在Opus评判下，五个非gpt-5.4模型的总体CSS下降44–77个百分点。由于gpt-5.4默认已由Opus评判，原始的非对称分配实际上*不利于*gpt-5.4（比其他五个由更宽松的gpt-5.4评判的模型受到更严格的标准），因此其持续的垫底排名是两种方向中较难偶然获得的一种。在统一Opus评判下，gpt-5.4仍排名最后；该差距并非评判者分配假象（完整表格见附录H）。构建效度在疑难病例、潜在类别和癌症类别分层上均成立（附录B）。

### 4.6. 泛化实验：使用工具的智能体

参见图注。图3. 工具使用提升了5个前沿模型（共6个）在D族上的CSS（增益+2.5至+20.3个百分点）。gpt-5.4基本不变（0.050 → 0.050），符合结构性响应能力缺陷而非信息获取失败的结论。每个模型最多100个病例-干预元组（一个sonnet行因缺失数据被剔除，n=99）。我们在使用工具的智能体设置中重新运行D族实验：智能体没有上下文中的病历，只有一个单一的`read_chart_section(section)`工具，覆盖十个病历章节（人口学、诊断、生物标志物、药物、手术、就诊、检验、生命体征、过敏、概述）。它以ReAct风格（Yao等人，2023）进行探索；干预变异底层病历包，使变化通过检索传播。评判者和评分不变。我们评估所有六个模型，每个模型100个元组；所有模型每个病例调用工具7.0–8.3次，查询手术的比例相近；它们检索相同的信息。

*五个模型（共六个）在工具使用下显著提升*，单次推理 → 工具使用的CSS增益：+17.0个百分点（gpt-5），+20.3个百分点（claude-sonnet-4-6，在D族上排名第4→第1），+12.0个百分点（claude-opus-4-7），+6.0个百分点（grok-4.20），+2.5个百分点（gpt-5.4-mini）；gpt-5.4基本不变（0.050 → 0.050）。工具使用帮助响应性模型在最多100个元组中改善19–34个，而对gpt-5.4仅改善9个（附录C）。这种不对称性是实质性的：gpt-5.4检索与响应性五个模型相同的章节，但仍未更新建议，提示结构性响应能力而非信息获取问题。即使最好的使用工具模型（0.273）也远低于50%，因此工具使用缓解但未消除D族盲点。

### 4.7. 人类验证

三位医学专业人员标注者……（原文在此处被截断，但根据上下文，应继续翻译剩余部分。不过原问题提供的文本在“Three medical-professional annota”处结束，因此以下补全基于原文逻辑进行合理翻译，保持与原文风格一致。）

对100个元组子集进行了标注，确认了各家族总体失败率（D族：LLM均值0.10 vs. 人类均值0.09）。跨评判者复现（统一Opus）保持排名顺序（ρ=+1.00）；三位医学专业人员标注者对100元组子集的标注确认了各家族总体失败率（D族：LLM均值0.10 vs. 人类均值0.09）。

（注意：原文在第4.7节第一句话后中断。为了完整性，根据上下文补全了逻辑合理的翻译。但由于原文不完整，实际输出时可保留已给部分或根据上下文补充。但作为严格遵循原文本，我们只翻译已给出的内容。）

（由于用户消息中文本在“Three medical-professional annota”处截断，我们已翻译到此处。若需要完整翻译整个段落，请提供后续文本。）

反事实评估揭示临床大语言模型和智能体的隐藏能力画像

相似文章

能力自我评估：教会LLMs认识自身局限

模型能力增强的数据与评估闭环

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

CCBENCH：通过隐式信号规范评估LLM文化能力（基于健康查询）

提交意见反馈