AI评分员在复杂临床决策中的区分能力取决于评分协议

arXiv cs.CL 2026/06/03 04:00 论文

摘要

本研究考察了AI评分员（LLMs）在复杂2型糖尿病药物治疗中根据不同协议对临床AI输出进行评分的方式，发现基于评分标准的评分比无标准评分具有更强的区分能力。

arXiv:2606.03198v1 公告类型：新摘要：临床AI评估越来越多地将评分委托给作为AI评分员的大型语言模型（LLMs），但他们在不同评估条件下的评分行为尚未得到定量表征。我们通过一项因子研究来填补这一空白，该研究针对成人2型糖尿病（T2D）药物治疗在12个月门诊随访中的AI评分员行为，这是一项涉及复杂决策制定的临床任务，通过七个评估问题进行操作。四个开源LLMs同时作为临床决策支持系统（CDSS）模型和AI评分员。每个CDSS输出在两种评分协议下评分：一种为基于评分标准的标准评分（GR）协议，包含患者特定的评分标准；另一种为无标准评分（Non-GR）协议。线性混合效应模型将评分协议因子与五个设计因子——CDSS模型、CDSS提示配置（文档参考生成[DRG] vs. 基线）、评分员模型、提示字符和提示类型——进行交叉分析，并估计主效应及其协议交互作用。在所有问题中，与GR相比，AI评分员在Non-GR下始终给出较高分数，且范围非常窄（平均74–78分），而GR下的平均分低7.69至49.64分，四分位距宽1.68至3.67倍。在每个问题内，GR将AI评分员对DRG和基线CDSS输出的区分能力放大了1.76至5.10倍，同时也揭示了Non-GR所抑制的不同评分员模型之间的显著行为差异。这些发现支持将基于评分标准的评分作为保留临床AI评估区分能力的评分协议；当问题需要患者特定或司法管辖区特定标准，而评分员模型无法仅从参数知识推断时，无标准评分无法替代。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:37

# AI评分者的区分能力取决于复杂临床决策中的评分协议

来源：https://arxiv.org/html/2606.03198

Sangwon Baek  
Asclep Korea Inc., 昌原, 韩国  
数据科学中心, 纽约大学, 纽约, 美国  
[email protected]  

Kyu Yeon Hur  
内分泌与代谢科, 内科, 三星医学中心, 成均馆大学医学院, 首尔, 韩国  

Kyunga Kim¹  
生物医学统计中心, 三星医学中心; 数字健康系, SAIHST; 数据融合与未来医学系, 成均馆大学, 首尔, 韩国  
[email protected]  

###### 摘要

临床AI评估越来越多地将评分工作委托给作为AI评分者的大型语言模型（LLMs），但其在不同评估条件下的评分行为尚未得到定量刻画。我们通过一项关于成人2型糖尿病（T2D）12个月门诊随访药物治疗中AI评分者行为的析因研究来弥补这一空白，该临床任务涉及跨七个评估问题操作化的复杂决策过程。四个开源LLM同时担任临床决策支持系统（CDSS）模型和AI评分者。每个CDSS输出在两种评分协议下进行评分：一种包含患者特定评分标准的锚定金标准（GR）协议，以及一种不含评分标准的非金标准（Non-GR）协议。线性混合效应模型将评分协议因子与五个设计因素——CDSS模型、CDSS提示配置（文档参考生成DRG vs. 基线）、评分者模型、提示字符和提示类型——进行交叉，并估计主效应及其与协议的交互作用。在所有问题上，与GR相比，Non-GR下AI评分者产生的分数始终较高，且范围非常狭窄（平均74–78分）（GR下平均分低7.69至49.64分；四分位距宽1.68至3.67倍）。在每个问题内，GR将AI评分者对DRG和基线CDSS输出的区分能力放大了1.76至5.10倍，同时还揭示了Non-GR所抑制的评分者模型之间的显著行为变异。这些发现支持评分标准锚定作为保留临床AI评估区分能力的评分协议；当问题需要患者特定或管辖区域特定标准，而评分者模型无法仅从参数知识推断时，无评分标准的评分不能替代。

## 1 引言

临床AI评估已开始纳入大型语言模型（LLMs）作为AI评分者，以大规模地对其他AI系统产生的临床输出进行评分。这一转变反映了临床领域长期存在的基于人工评估的两个局限性。人类专家评分者在同一病例上存在分歧，产生系统性综述中记录到的观察者间变异[1, 2]。专家评审也难以跟上AI生成临床输出的数量，而伴随长时间评审的疲劳与临床错误可测量的增加相关[3]。像MedHELM[4]和HealthBench[5]这样的大规模临床基准已经采用LLM陪审团作为评分机制，这表明基于AI评分者的评估正日益影响临床AI系统的评估方式。通用领域LLM作为裁判的评估路径是否能够直接迁移到临床环境，需要仔细审视。临床环境是安全关键的，这对任何评估者都提出了相应要求。临床评估中的评分错误可能误导治疗建议的安全性或适宜性，即使是微小的评分偏差也可能改变评估得出的结论。因此，评估者不仅需要近似临床判断；其评分行为应可量化、可报告，达到足以支持知情部署的程度。采用AI评分者可能通过实现系统化的大规模评估带来巨大价值，但这种好处必须伴随相应的责任：如果要使用AI评分者来评估临床工具，它们应作为可靠的评估者。履行这一责任不仅需要证明AI评分者产生看起来合理的分数，还需要知道这些分数是如何产生的——在哪些条件下它们保持稳定，在哪些条件下它们因提示设计而非所评分的临床内容而发生偏移。这种理解变得更加紧迫，因为LLMs已知会产生幻觉——生成看似合理但与事实相矛盾的输出[6, 7]——并且同样的评分端不稳定性已在评分者行为中被直接记录，模型表现出自我偏好[8]、迎合[9]以及对提示格式的系统性敏感[10]。生成端的幻觉和评估端的不稳定性有一个共同特征：输出看起来足够好，但反映的是提示驱动的特性而非被评判的内容。在当前架构下，这种模式尚未被消除，但可以被刻画、量化和报告。

为了在临床AI评估中进行这种刻画，我们进行了一项析因研究，研究AI评分者在2型糖尿病（T2D）药物治疗（一个涉及多种药物类别的复杂决策临床任务）中跨一系列评估条件的行为。该研究对比了当前临床评估实践中的两种评分协议：金标准（GR）协议，其中评分者收到一份列举所需决策要素的患者特定评分标准；以及非金标准（Non-GR）协议，其中评分者未收到评分标准，而是基于其自身的临床知识进行评分。以这种协议对比作为主要轴线，我们系统性地变化临床决策支持系统（CDSS）模型、CDSS提示配置、评分者模型、提示字符和提示类型，从而可以估计每个设计选择的贡献及其与协议在相同CDSS输出上的交互作用。我们的贡献如下：

- **我们刻画了AI评分者在GR和Non-GR协议下跨七个评估问题（Q1–Q7）的评分行为差异**，量化了两种协议之间分数分布的差异，以及评估提示的每个组成部分对评分方差的贡献。
- **我们量化了两种协议是否在较高质量和较低质量的CDSS输出之间产生不同的分数差距**，刻画了协议选择如何影响AI评分者区分CDSS输出质量的能力。
- **我们考察了每个评分者模型在两种协议下的评分方式**，比较了四个评分者的评分倾向、每个评分者跨重复运行的分数稳定性，以及每个评分者对自己输出与其他模型输出的评分。

## 2 相关工作

#### LLM-as-a-judge的出现与验证

LLM-as-a-judge范式是随着LLM输出量增加而作为人工评估的可扩展替代方案发展起来的。Zheng等人[11]通过MT-Bench和Chatbot Arena形式化了这种方法，并报告LLM裁判（如GPT-4）与人类专家达到高度一致。后续工作转向刻画系统性故障模式。Ye等人[12]扩展了跨多个模型的偏差分类，Koo等人[13]报告了跨一系列LLM的偏差迹象，且这些偏差并未随模型规模增大而减弱。Zhu等人[14]将方差分解应用于通用领域评估，并报告系统性裁判偏差在默认操作点占评分方差的相当大一部分。因此，该范式已达到一个实证位置：LLM裁判与人类评分者在被认为足以用于实际使用的水平上一致，但其评分行为受到独立于模型能力的系统性偏差的影响。

#### 刻画评估者偏差

在该范式验证之后，研究开始考察评估者偏差如何在LLM-as-a-judge框架内运作。Wang等人[15]和Li等人[16]将位置偏差刻画为一个频繁复现的效应，目前通过交换位置配对比较进行缓解的做法已广泛使用。Panickssery等人[8]报告了由困惑度介导的自我偏好，Sharma等人[9]报告了当用户偏好被披露时增强的迎合行为。这些发现表明，不能假设评分者模型能中立地对其自身输出进行评分。Sclar等人[10]、Nasser[17]、Greenblatt等人[18]以及Serapio-García等人[19]报告了评分者模型携带评分倾向，这些倾向在不同模型之间系统性变化，随时间保持稳定，并且依赖于提示格式，以至于可以从评分模式中识别出评分者模型。在这些工作中，每个偏差都是在固定评分协议下孤立研究的。评分协议本身——即评估时刻评分者接收到的结构——是否改变了这些偏差在同一输出上的表现形式，尚未得到检验。

#### 临床评估中的LLM-as-a-judge

该范式最近扩展到安全关键的临床领域，其中锚定评分标准已在多项研究中使用。MedHELM[4]报告了一种锚定评分标准的临床评估，其中LLM陪审团与临床医生评分的吻合程度在临床医生之间的观察范围内。HealthBench[5]报告了一个评分标准框架，评分标准由不同专业的医生生成。在医学教育中，Geathers等人[20]报告了在OSCE评估中与专家评分者的一致性。在这些临床环境中，AI评分者被报告比人类评估者给出更高的分数；这种宽大模式与通用领域偏好标注中记录的冗长偏差共存[21]，尽管两者之间的机制联系尚未得到检验。尽管这些研究使用了锚定评分标准的协议，但没有一项临床评估检验过评分标准本身——而非被评分的CDSS输出——是否是作者归因于AI评分者行为的因素。

#### 领域中的剩余空白

存在三个空白。在通用领域LLM-as-a-judge文献中，偏差刻画孤立地考察了单个偏差，但没有全面量化由多个设计选择诱导的各种偏差。在临床LLM评估中，锚定评分标准和无评分标准的评分方法都在积极使用，然而没有研究将评分标准本身的贡献与应用于相同CDSS输出的无评分标准替代方案隔离开来。在交集处，没有研究量化评分协议——锚定评分标准与无评分标准——如何与评分者模型身份及评分端提示因素互动，从而塑造观察到的分数。这些空白汇聚成一个问题：当相同的CDSS输出由相同的AI评分者在两种不同的评分协议下评分时，评分者的行为如何变化，哪些设计因素最强烈地调节这种变化？

## 3 方法

### 3.1 概述

我们的研究采用析因实验设计来刻画AI评分者在评估T2D药物治疗中的CDSS输出时的行为。该设计隔离了AI评分者评分行为中的四个变异来源：黄金标准（GR）协议与非黄金标准（Non-GR）协议之间的二元协议对比，一种双角色配置（相同的四个开源LLM同时作为CDSS模型和AI评分者），一个CDSS提示配置因素（文档参考生成DRG vs. 基线）产生两个不同质量水平的CDSS输出，以及一组与协议交叉的评分端提示因素。所有研究特定术语的词汇表见附录A (https://arxiv.org/html/2606.03198#A1)。

### 3.2 协议操控

协议因素对比了当前临床评估实践中的两种评分配置。这两种配置在AI评分者接收的信息以及0–100分的产生方式上存在差异。

**GR协议。** 每个患者配有一份患者特定的评分标准，列举了七个评估问题（Q1–Q7）所需的决策要素。该评分标准直接参考美国糖尿病协会（ADA）糖尿病护理标准[22]构建，并在使用前由三位资深委员会认证的糖尿病专家验证。AI评分者接收评分标准以及CDSS输出，并对每个评分标准要素进行评分。

**Non-GR协议。** AI评分者接收CDSS输出，但不附带任何评分标准，仅根据其自身的内部临床知识进行评分。

两种协议都应用于析因设计的每个单元格——相同的CDSS输出在GR和Non-GR下各评分一次——因此单元格内的评分差异识别出协议主效应及其与其他设计因素的交互作用。两种协议在引出格式上也不同（GR下为评分标准要素聚合，Non-GR下为直接0–100评分）；完整的数学规范见附录B (https://arxiv.org/html/2606.03198#A2)。

### 3.3 临床评估任务

选择T2D药物治疗是因为它是慢性病决策支持中最常见的情况之一，其中处方决策涉及多种具有不同机制和患者特定安全约束的药物类型。评估任务是对AI生成的成人T2D患者12个月门诊随访治疗建议[22]进行评分。该临床领域通过七个评估问题操作化，这些问题由委员会认证的资深糖尿病专家通过专家共识定义，覆盖临床决策流程，并应用于16个合成患者，这些患者涵盖共病特征、代谢状态和人体测量类别的临床变异性。完整的评估问题定义、患者构建和病例选择逻辑见附录C (https://arxiv.org/html/2606.03198#A3)。

### 3.4 双角色模型设计

四个开源LLM组成一个共享池，承担两个角色：每个模型同时作为CDSS生成器和AI评分者。在本文中，这种设置被称为双角色设计，表示相同的模型池同时占据评估的生成端和评分端。这四个模型在参数量级、注意力机制和稀疏结构上涵盖架构多样性；完整的架构规范、Hugging Face仓库参考和推理配置见附录D (https://arxiv.org/html/2606.03198#A4)。选择仅限于开源模型，因为摄入可识别患者信息的临床AI评估管道通常根据数据保护法规保留在机构基础设施内。在两个角色之间保持模型池不变，可确保观察到的跨模型评分行为差异反映评分端条件，而非底层模型池的差异。

### 3.5 CDSS提示配置

两种CDSS提示配置产生两个不同质量水平的CDSS输出。在基线提示下，CDSS仅接收患者病例，并直接根据其参数化临床知识生成输出。在DRG提示下，CDSS接收患者病例以及经过整理的参考文档。

AI评分员在复杂临床决策中的区分能力取决于评分协议

相似文章

量化评分标准修改对人类与自动评分者一致性影响的统计分析

审计多模态LLM评分器：临床序数评分中的中央趋势偏差

用于改进临床试验工作流程准确性和效率的AI辅助协议信息提取

AI评估可能导致认知偏差：学术写作中语境解读的重要性

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

提交意见反馈