临床AI工具在真实临床即时查询中的专家评估

arXiv cs.AI 2026/06/30 04:00 论文

clinical-ai medical-ai ai-evaluation point-of-care llm-evaluation healthcare benchmark

摘要

本文报告了一项针对临床AI工具的盲评，采用医生在临床即时提出的真实查询，比较了专用模型与通用模型在五个维度上的表现。专用工具（OpenEvidence）在所有维度上均优于通用模型，作者同时发布了Real-POCQi基准测试集。

arXiv:2606.28960v1 公告类型：新摘要：目前，医生每周向AI工具提出数百万个临床问题，然而这些工具的评估大多基于假设性或考试类问题，而非实际临床中提出的问题。我们报告了一项基于620个真实临床即时查询（Real-POCQi）的盲评，这些查询由涵盖30个专科的医生提交到OpenEvidence（OE）平台，另有187个来自HealthBench的问题。来自36个州的149名执业医生对三个前沿通用模型（Claude Opus 4.8、Gemini 3.1 Pro和GPT-5.5）与一个专用临床工具（OE）给出的答案进行了直接对比，评分者按每个问题的专科进行匹配。在比较与临床决策支持相关的五个维度——准确性、临床实用性、来源质量、可验证性和完整性时，医生在所有维度上对专用工具的评分最高；在Real-POCQi的主要分析中，胜率差异（胜率与负率之差）在25到39个百分点之间（p<0.001）。在按引用显示、答案长度、OE用户状态以及Real-POCQi与HealthBench分层的敏感性分析中，结果保持一致。同时，发现LLM评判员与专家评判员存在系统性差异，尽管两者总体上对最佳模型的判断一致。这些发现强调了两点结论：（i）AI工具评估应反映真实世界的查询分布，并使用反映现代医学专科化特征的专家评判员；（ii）专用工具相对于通用模型的持续优势并不一定意味着后者无法服务于类似目的，但有针对性的工程和定制化可以为其用户带来显著的性能提升。我们发布Real-POCQi作为公共基准测试集，以及用于重现本研究结果的预指定统计分析。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:32

# 临床AI工具在真实临床查询上的专家评估
来源：https://arxiv.org/html/2606.28960
\[1\]\\fnmJean\\surFeng

\[1\]\\orgdiv流行病学与生物统计学系，\\orgname加州大学旧金山分校，\\orgaddress\\city旧金山，\\state加利福尼亚州，\\country美国

\[2\]\\orgname哈佛医学院，\\orgaddress\\city波士顿，\\state马萨诸塞州，\\country美国

\[3\]\\orgname布里格姆妇女医院，\\orgaddress\\city波士顿，\\state马萨诸塞州，\\country美国

\[4\]\\orgdiv生物统计学系，\\orgname华盛顿大学，\\orgaddress\\city西雅图，\\state华盛顿州，\\country美国

\[5\]\\orgdiv基础模型研究中心（CRFM），\\orgname斯坦福大学，\\orgaddress\\city斯坦福，\\state加利福尼亚州，\\country美国

\[6\]\\orgname马萨诸塞总医院，\\orgaddress\\city波士顿，\\state马萨诸塞州，\\country美国

\[7\]\\orgname国家经济研究局，\\orgaddress\\city剑桥，\\state马萨诸塞州，\\country美国

\\fnmVishal\\surPatel\\fnmPatrick\\surHeagerty\\fnmYifan\\surMai\\fnmVenkatesh\\surSivaraman\\fnmPatrick\\surVossler\\fnmJialin\\surOuyang\\fnmAnupam B\.\\surJena\*\[\[\[\[\[\[

###### 摘要

如今，医生每周向AI工具提出数百万个临床问题，然而这些工具的评估主要基于假设性或考试式问题，而非实际临床中提出的问题。我们报告了一项盲法评估，基于医生在OpenEvidence（OE）平台上提交的620个真实世界临床决策支持查询（Real-POCQi），涵盖30个专科，以及来自HealthBench的187个问题。来自36个州的149名执业医生对三种前沿通用模型（Claude Opus 4.8、Gemini 3.1 Pro、GPT-5.5）和一种专科临床工具（OE）的答案进行了头对头比较，评分者与每个问题的专科相匹配。在比较与临床决策支持相关的五个维度（准确性、临床实用性、来源质量、可验证性和完整性）时，医生在所有轴线上均给予专科工具最高分；在Real-POCQi的主要分析中，胜率差（胜率与败率之差）从25到39个百分点不等（p<<0.001）。在按引用显示方式、答案长度、OE用户状态以及Real-POCQi与HealthBench分层的敏感性分析中，结果保持一致。同时，发现LLM评委与专家评委存在系统性差异，尽管两者在最佳模型上总体一致。这些发现强调了两个结论。首先，AI工具评估应反映真实世界的查询分布，并使用与定义现代医学专科化相匹配的专家评委。其次，专科工具相对于通用模型的持续优势并不意味着后者不能服务于类似目的，而是表明针对性的工程和定制化能为用户带来性能和实用性上的显著提升。我们公开发布Real-POCQi作为进一步分析的基准，以及用于重现本研究结果的预设统计分析。

## 1 引言

临床医生是AI工具的快速采纳者，美国医生每月提出数千万个临床请求[OffcallUnknown-qz]。鉴于这些工具所影响的决策的重要性，以及其能力和采纳速度正在迅速扩展，严格的、以安全为导向的评估至关重要。这一迫切需求促进了大量针对医学AI模型评估的研究[Jin2021-fn, Arora2025-fp, Bedi2026-sx, Vishwanath2026-io]，但构建能够忠实反映真实临床实践的评估仍然是一个根本性挑战[Alaa2025-pq]。

医学AI评估主要依赖标准化基准——固定、共享的测试问题数据集，附有预定正确答案或评分标准，例如来自执业考试的问题。越来越多的人担心这些基准不能反映医生在实践中使用这些模型时面临的真实挑战，原因在于评估数据的收集方式和答案评分方式都存在根本性局限。首先，公共数据集很少能捕捉到医生在诊疗过程中所提出问题的真实分布，部分原因是这类查询难以大规模收集，且很少由提交这些查询的专有平台公开发布。早期基准严重依赖来自标准化执业考试的多选题[Jin2021-fn, Singhal2023-sc]，而较新的研究使用由医生和AI代理共同设计的问题[Arora2025-fp]。在这两种情况下，问题默认是假设性的，往往过度简化临床情境，并反映对临床现场问题的推测性而非经验性假设。其次，由于在医学领域获取高质量标注的困难，对AI在临床主题上的评分通常依赖少数医生跨多个领域对问题进行评分，忽视了定义现代医学的专科化。此外，通常使用固定评分标准，假设这种评分方案更具成本效益[Vishwanath2026-io]。然而，最近的研究表明，评分标准在进行头对头比较时准确性显著较低，尤其是在高专业知识领域[Yang2026-pr]，因为评分标准不仅预设了答案的优劣标准，还做出了笼统的假设。这并不能反映执业医生在临床现场的真实需求。与此同时，现在存在一个争论：是否可以通过使用LLM评委或陪审团完全放弃人类专家[Chehbouni2025-ao, Bedi2026-sx, Vossler2026-ii]。对于基于AI的临床决策支持系统，关键问题是语言模型能否可靠地裁定临床现场问题的临床推理，这一点迄今尚未得到充分检验。鉴于这些差距，有必要超越标准化基准，转向基于临床实践现实的评估，以临床医生提出的问题和适当匹配的专家判断为基础。

请参阅图1图注：图1：研究设计和基准数据集构成。专科匹配、持有执照且正在执业的美国医生对四个基于聊天的医学AI系统——GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.8和OpenEvidence（OE）——在真实世界临床决策支持问题上进行了随机、盲法、成对设计评估。a，研究示意图。问题库（Real-POCQi）来源于去标识化和重写的OE真实用户查询，按36个专科（IQVIA数据库）抽样，并根据排除标准进行筛选；此外还纳入了HealthBench问题用于敏感性分析。每位评估者被分配一个固定不变的呈现模式——纯文本（主要）或文本加引用（次要）；每个问题随机抽取四个系统中的一个成对，两个答案以随机A/B位置显示，供应商身份隐藏并以相同方式呈现。每个比较在五个维度（准确性、临床实用性、来源质量、可验证性和完整性）上独立评级，采用从A好很多到B好很多的五点偏好量表。b，数据集中各专科领域在抽样和评级问题中的普遍性。c，通过基于LLM的聚类识别的数据集中问题类型分布。

这里我们报告一项基于医生提交给OpenEvidence（OE）平台的真实世界临床决策支持查询（Real-POCQi）的大规模盲法评估，并对来自HealthBench基准[Arora2025-fp]的问题进行敏感性分析（图1 (https://arxiv.org/html/2606.28960#S1.F1)）。我们公开发布Real-POCQi的问题、答案、评分和分析代码（https://huggingface.co/datasets/jjfenglab/Real-POCQi, https://github.com/jjfenglab/Real-POCQi-statistics）。Real-POCQi中的问题来自美国医生每天向OE提交的超过一百万个问题，涵盖从诊断和预后到治疗选择和药物安全性等主题，以及从全科领域如初级保健到专科领域如肾脏病学。在一项针对随机选择的美国医生的调查中，来自36个州的149名受访者根据临床主题与问题匹配，并对四个AI模型的答案进行了盲法、头对头比较：三个前沿通用模型（Claude Opus 4.8、Gemini 3.1 Pro和GPT-5.5）和一个专科临床工具（OE）。通过LLM竞技场流行的成对比较方法[Chiang2024-tw]，AI系统的答案在五个与临床现场决策相关的维度（准确性、临床实用性、来源质量、可验证性和完整性）上进行了评估。最终的Real-POCQi数据集构成了最大的专科匹配的公共基准，包含由执业临床医生提出的真实世界临床查询，包括620个问题、1156个比较和30个专科。借助它，我们评估了通用和专科AI模型生成反映不同医学领域需求的答案的能力。

## 2 结果

### 2.1 基准和评估研究概述

根据作者和OE同意并行的数据收集计划，OE生成并通过电子邮件向从IQVIA OneKey提供者数据库中抽样的医生发送调查。调查问题来自OE平台用户提交的3600个问题样本，涵盖36个专科，并且为了敏感性分析的目的，还包括来自HealthBench的问题[Arora2025-fp]。最终的Real-POCQi基准包含至少一个评级的620个问题，来自横跨30个医学专科的医生（图1 (https://arxiv.org/html/2606.28960#S1.F1)a）。基准问题中排名前列的专科是心脏病学、胃肠病学和血液学/肿瘤学（图1 (https://arxiv.org/html/2606.28960#S1.F1)b）。基于LLM的聚类[Grootendorst2022-it, Feng2026-ka]揭示了问题中的十一个关键主题，其中“治疗学与毒性”最为普遍，其次是“评估与管理”，然后是“诊断与预后”。（图1 (https://arxiv.org/html/2606.28960#S1.F1)c）。样本问题见附录表格LABEL:tab:sample_questions。

基准数据集中问题的答案由149名执业美国医生评分，生成了1156个成对评级，涵盖五个轴（准确性、临床实用性、来源质量、可验证性和完整性），涉及四个盲法AI模型。选择准确性是因为在任何情况下，无论写作风格如何，答案准确都是最重要的。选择临床实用性、来源质量和可验证性是因为这些维度与临床决策支持特别相关：基于所提供信息进行实践的能力和信任所提供信息的能力是相关但独立于纯粹准确性的。完整性是当一个回答可能在技术上是正确但不完整时进行补充评估的度量。问题随机抽样，使得评分者的专科与查询的临床主题相匹配。

为了分离AI答案呈现方式的效果，采用2:1随机分配，一部分医生仅查看AI生成答案的文本（纯文本），另一部分同时查看文本和引用（文本+引用）。中位提交时间为127秒；提交时间低于10秒的评分被排除在主要分析之外（排除n = 18个）。评分者间一致性率——在评估相同问题和相同AI模型对且处于相同呈现模式下的医生之间——在五个评估维度上从74.1%到76.9%不等。使用二次加权的加权Cohen's kappa为中等到高，在除可验证性轴之外的所有维度上从23%到38%，可验证性轴的kappa为9%。OE用户和非用户被均匀抽样，导致52.3%的评分者在OE拥有注册账户。完整的描述性统计见附录表1 (https://arxiv.org/html/2606.28960#A1.T1)。

请参阅图2图注：图2：AI模型在回答真实世界临床决策支持查询时的胜率差和胜率。所有面板总结了对纯文本答案的盲法比较，医生在其临床专科中对问题进行评分。答案在五点Likert量表上进行比较，允许平局。对于系统A和B，A相对于B的胜率是A被评为优于B的频率。主要结局指标，One-vs-Rest（OvR）胜率差，是当系统A与比较系统进行比较时胜率和败率之差的平均值。a，GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.8和OpenEvidence（OE）在所有五个评估维度上的OvR胜率差。b，系统相对于其他比较者的偏好评分的平均分布。c，每对有序系统的成对胜率P（行>列），较深的单元格表示较高的胜率。d，沿准确性中心轴的胜率差的敏感性分析，按答案比其比较对象更长还是更短进行分层（顶部），以及按评估临床医生是否为现有OE用户进行分层（底部）。星号表示在p=0.05水平上的统计显著性。所有误差条为95%自举置信区间。

### 2.2 主要终点：AI系统间的胜率差

研究的主要预设终点是One-vs-Rest胜率差，定义为（胜数−负数）/N，其中胜数是一个系统相对于另一个系统被偏好的次数，负数是被不偏好的次数，N是该系统的比较总次数[Pocock2012-md, Chiang2024-tw, Fang2026-cv]。该指标范围从−100%（总是被不偏好）到100%（总是被偏好），零表示胜负平衡。

主要分析检验了对于给定模型和评估轴，当评估者仅看到来自Real-POCQi查询的纯文本答案时，胜率差是否为零。只有OE在所有五个评估轴上实现了正的胜率差，双侧p值均<<0.001（总结见图2 (https://arxiv.org/html/2606.28960#S2.F2)，详情见附录表3 (https://arxiv.org/html/2606.28960#A4.T3)）。对于核心的准确性分数，OE的胜率差为24.7%（18.4%至30.8%，p<0.001），而GPT-5.5为−21.1%（−29.1%至−13.3%，p<0.001），Claude Opus 4.8为−1.5%（−9.3%至6.3%，p=0.70），Gemini 3.1 Pro为−2.1%（−9.5%至5.3%，p=0.59）。对于临床实用性，OE实现了29.6%（21.5%至37.4%，p<0.001），而GPT-5.5为−19.4%，Claude Opus 4.8为−13.7%，Gemini 3.1 Pro为3.5%。其他轴上的比较方向一致。值得注意的是，最高的胜率差为38.8%（31.7%至45.8%，p<0.001），由OE在来源质量维度上实现。GPT-5.5在所有五个评估轴上都具有最低的胜率差（所有p<0.001）。

进行了一系列全面的敏感性分析以评估这些发现的稳健性。首先，

临床AI工具在真实临床即时查询中的专家评估

相似文章

介绍 HealthBench

技能增强型AI代理在医学研究分析中的应用：一项NSCLC转录组生物标志物任务中的探索性多模型人类评估

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

DeepER-Med：通过智能体AI推进医学深度循证研究

HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件

提交意见反馈