与 Penda Health 一起开创医疗 AI 副驾驶

OpenAI Blog 新闻

摘要

OpenAI 与肯尼亚 Penda Health 合作研究了一个由大语言模型驱动的临床助手 AI Consult,在 39,849 次患者就诊中诊断错误相对降低 16%,治疗错误相对降低 13%。该研究突出了 AI 在初级保健中的成功真实应用,并为 LLM 安全有效地部署以支持临床医生提供了模板。

OpenAI 和 Penda Health 推出医疗 AI 副驾驶,在真实应用中将诊断错误降低 16%——为医疗领域安全有效的 AI 应用开辟了新路径。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:48

# 与 Penda Health 开创 AI 临床副驾驶 来源:https://openai.com/index/ai-clinical-copilot-penda-health/ AI 系统有潜力在全球改善人类健康——使可靠的健康信息普遍可得,帮助临床医生提供更好的护理,并赋予人们更好地理解和倡导自身健康的能力。 大语言模型 (LLM) 在健康领域的性能和安全性不断进步。OpenAI 模型在 HealthBench 上的性能从 GPT-4o 翻倍提升到 o3,前沿模型通常在诊断推理和临床总结等任务上的表现优于专家。然而,向解决实际患者和临床医生挑战的采用进展缓慢。要充分发挥 LLM 在健康领域的潜力,生态系统需要弥合**模型-实现差距**——即模型能做什么和它们在实践中如何被使用之间的鸿沟。 为了推进真实世界实施的研究,OpenAI 与 Penda Health 合作,这是一家自 2012 年以来在肯尼亚内罗毕运营的初级保健提供者,共同进行了一项关于 Penda 的 LLM 驱动的临床医生副驾驶的创新研究。Penda 开发了他们的副驾驶 **AI Consult**,在患者就诊的关键时刻为临床医生提供 LLM 编写的建议。AI Consult 充当实时安全网,仅在可能出现错误时激活,使临床医生保持完全控制。 在一项涵盖 15 个诊所、39,849 个患者就诊的研究中,使用 AI Consult 的临床医生诊断错误相对减少了 **16%**,治疗错误减少了 **13%**。 我们认为这一结果源于三个关键因素: - **强大的模型**:Penda 的副驾驶使用了 2024 年 8 月的 GPT-4o,此后模型快速进步。模型性能不再是限制因素。 - **临床对齐的实现**:副驾驶与临床用户共同开发,确保其真正支持而不是干扰护理流程。 - **主动部署**:Penda 投入了大量努力帮助临床医生理解为什么以及如何使用副驾驶,这对采用至关重要。 今天,我们发布了研究结果,并详细介绍了 Penda 的成功实现,为生态系统提供了一个早期的、关于安全有效地使用 LLM 支持临床医生的模板。 我们在研究中广泛参与了当地利益相关者。该质量改进研究项目获得了 AMREF Health Africa 伦理和科学审查委员会、肯尼亚卫生部、数字健康局、内罗毕县卫生部门的批准,并在肯尼亚国家科学、技术和创新委员会的研究许可证下进行。 AI 系统在初级保健中可能特别有用。初级保健临床医生每天都要接诊各个年龄段、各个器官系统和各种疾病类型的患者,需要掌握广泛的医学知识。这种复杂性使得医疗错误很常见:世界卫生组织报告,初级保健中的患者伤害既常见又可预防。 Penda Health 是一个社会企业,致力于提供高质量、平价医疗。Penda 有 16 个诊所,每个诊所都提供初级保健、急诊护理、实验室服务和药房。这些诊所全天候开放,每年接诊近 50 万患者。Penda 对护理质量有独特的强烈关注,拥有积极的临床医生培训和质量计划,并已开发和测试了副驾驶系统的早期迭代。 医疗工作者和 Penda 医疗中心工作人员与配送箱。 ChatGPT 发布后,Penda 的首席医疗官 Robert Korom 博士认识到 LLM 如何能够通过涵盖比以前可能更广泛的条件和潜在错误来实现更高质量的决策支持。作为回应,Penda 建立了最早的 LLM 临床副驾驶之一,使临床医生能够在需要时寻求 LLM 的第二意见。在一次内部审计中,Penda 审查了 100 个来自真实患者就诊的 LLM 输出,发现许多情况下 LLM 输出很有帮助,没有发现任何有害的情况。然而,这个早期版本的 AI Consult 采用率有限,因为它需要临床医生主动请求帮助,并中断了患者互动的流程。 使用显微镜的实验室技术员和 Penda 医疗中心外部。 在 2025 年初,Penda 开发了新版本的 AI Consult,它在临床医生的工作流程中充当实时安全网。该副驾驶集成到 Penda 临床医生每天使用的电子健康记录中,并在每次就诊期间在后台运行。当临床医生与患者互动并记录患者就诊信息时,不含患者标识符的文档会在关键时刻发送到 OpenAI API。AI Consult 然后根据迄今为止的临床互动为临床医生提供任何必要的反馈。可以返回三种类型的响应: - **绿色**:表示无顾虑;显示为绿色复选标记。 - **黄色**:表示中等顾虑;显示为黄色铃铛,临床医生可以选择是否查看。 - **红色**:表示安全关键问题;显示为弹出窗口,临床医生必须在继续之前查看。 Penda 设计 AI Consult 以确保患者安全。副驾驶充当安全网,为临床医生识别和验证潜在错误,而不是代表临床医生采取行动。重要的是,临床医生在每个步骤都驱动工作流程:当副驾驶识别潜在错误时,临床医生可以选择是否根据反馈修改他们的决定,最终决定权属于临床医生。AI Consult 根据 Penda 的背景进行了定制,提示包括肯尼亚流行病学背景、当地临床指南指导和 Penda 诊所的标准程序。 AI Consult 标记了重要的遗漏诊断——缺铁性贫血,促使临床医生添加此诊断以便进行适当治疗。 初始文档 **进行的检查:**全血细胞计数 (FHG):* WBC: 12.38 * **HGB: 9.90** * HCT: 30.70 * Plt: 248.00 * RBC (全血细胞计数):5.26 * **MCV: 58.30** * MCH: 18.80 * MCHC: 32.20 链球菌 A 抗原试验:* 结果:阴性**诊断:**扁桃体炎,急性细菌性 AI Consult 响应 **推理:**临床文档*显示存在小细胞贫血*,血红蛋白水平为 9.90 g/dL,MCV 为 58.30 fL,表明*诊断中未解决的贫血*。小细胞贫血的存在应与当前的呕吐症状一起评估。**建议:**重新评估诊断,考虑小细胞贫血的重大发现,该发现在诊断中未得到解决。调查贫血的潜在原因,如缺铁或慢性疾病。考虑进行铁储存研究或进一步饮食调查。确保贫血包含在管理计划中以解决这一关键发现。 最终文档 **进行的检查:**全血细胞计数 (FHG):* WBC: 12.38 * HGB: 9.90 * HCT: 30.70 * Plt: 248.00 * RBC (全血细胞计数):5.26 * MCV: 58.30 * MCH: 18.80 * MCHC: 32.20 链球菌 A 抗原试验:* 结果:阴性**诊断:**扁桃体炎,急性细菌性、呕吐,未指定、*缺铁性贫血*、A 组链球菌咽喉炎评分 <2 AI Consult 后的更改 Penda 作为其质量改进实践的一部分,将 AI Consult 部署给随机选择的一半临床医生。此部署分两个阶段进行——入职期 (1 月 30 日至 2 月 28 日) 和主要期 (3 月 1 日至 4 月 17 日)。 在入职期间,Penda 利用临床医生反馈改进副驾驶。这包括解决在测试中无法识别的技术问题 (例如,在有时触发不一致) 和临床工作流程 (例如,在儿童就诊时触发缺少血压,尽管 Penda 不例行地给儿童测血压)。在这一时期,Penda 还注意到临床医生在学习使用 AI Consult 的早期阶段——例如,他们经常忽视红色警报,因为他们不知道这些警报的重要性——这强调了帮助临床医生好好使用副驾驶的重要性。 在主要期间,Penda 采取了几个步骤来帮助临床医生更好地使用 AI Consult。这些包括: - **连接**:同行倡导者和分支机构经理解释了副驾驶的重要性,介绍了其优势和局限性,并提供一对一辅导以支持采用。 - **测量**:Penda 跟踪临床医生与 AI Consult 建议互动的频率,并提供个性化辅导。 - **激励**:Penda 质量领导层表彰使用 AI Consult 得好的临床医生和诊所。 Penda 与 OpenAI 合作分析副驾驶部署的影响,比较有和没有 AI Consult 访问权限的临床医生提供的护理。OpenAI 为该研究提供了财务支持,并就副驾驶的进一步开发进行了咨询。 仅有单独同意其数据被纳入质量改进研究的患者被纳入分析,他们可以根据要求撤回其数据。AMREF 伦理和科学审查委员会确定此项研究不需要额外同意。 该研究分析了来自 39,849 个患者就诊的数据:20,859 个在 AI 组 (**AI 组**) 中,18,990 个在没有的组 (**非 AI 组**) 中。 108 名独立医生 (其中 29 人来自肯尼亚) 对来自 5,666 次随机选择的就诊中的最终文档和决定进行了评级,以识别错误。他们对四个维度进行了评级:**病史**的质量;订购的**检查**的适当性;**诊断**是否正确;以及**治疗**是否正确。 所有四个类别中的错误在 AI 组中明显低于非 AI 组。病史采集错误减少了 32%,检查错误减少了 10%,诊断错误减少了 16%,治疗错误减少了 13%。在 AI Consult 返回至少一个红色警报的情况中,这种效果更大:在这些就诊中,AI 将诊断错误减少了 31%,治疗错误减少了 18%。 *显著性水平用星号表示:★ 表示 p ≤ 0.05,★★ 表示 p ≤ 0.01,★★★ 表示 p ≤ 0.001。* 这些效应大小与抗生素管理计划或警报相当,以鼓励需要的患者进行他汀类药物处方,但来自单一系统,该系统可以支持广泛的临床决定。在绝对意义上,在 Penda 单独引入 AI Consult 将每年避免 22,000 个就诊中的诊断错误和 29,000 个就诊中的治疗错误。 我们还检查了 AI Consult 减少的特定类型的错误。我们发现 AI 组更不可能遗漏病史中的关键细节、遗漏关键检查或诊断错误。我们还发现使用 AI 的临床医生不太可能给予错误的药物或忽视重要的患者教育。 *显著性水平用星号表示:★ 表示 p ≤ 0.05,★★ 表示 p ≤ 0.01,★★★ 表示 p ≤ 0.001。* Penda 的主动部署工作非常有效。Penda 跟踪的措施之一是**遗留在红色率**:有任何类别红色警报 (或对于非 AI 组会有红色警报) 且临床医生未纠正这些警报的就诊百分比。 在入职期间,AI 组和非 AI 组之间的遗留在红色率相似,为 35-40%,表明拥有 AI 的临床医生仅有时对红色警报采取行动。一旦 Penda 开始主动部署,AI 组中的遗留在红色率下降到 20%,而非 AI 组率保持在 40% 附近,强调了主动部署对 AI Consult 影响的重要性。 我们调查了 Penda 临床医生 (匿名、征得同意) 关于 AI Consult 对其护理质量影响的看法。AI 组中的所有受访者都报告 AI Consult 帮助他们提高了他们能提供的护理质量,其中 75% 说效果"实质性"。 AI 组中的临床医生不仅使用了 AI Consult——他们与之一起成长。一位临床医生指出"它在多个场合帮助我做出正确的临床判断",而其他人称其为"房间里的顾问",并将其称为"Penda 发生过的最佳创新之一"。他们还将其描述为一个"学习工具",可以帮助他们拓宽医学知识和锐化临床技能。研究数据与这一看法相符:使用 AI 的临床医生随着时间推移触发的红色警报减少 (从研究开始时 45% 的就诊下降到最后的 35%),这意味着他们学会了在获得 AI Consult 反馈之前避免常见陷阱。除了热情外,临床医生还指出了改进的空间,特别是关于本地化和速度。 作为 Penda 标准实践的一部分,员工在患者同意后八天给患者打电话询问他们是否感觉更好。在 AI 组中,3.8% 的患者没有感觉更好,而在非 AI 组中,4.3% 的患者没有感觉更好。这一差异在统计上不显著。寻求 Penda 外部额外护理的患者比率——Penda 收集的另一个质量信号——组间也相似。 Penda 的员工也可以在潜在伤害情况下提交患者安全报告。AI 组有 7 份报告,非 AI 组有 5 份,每份都由 Penda 团队进行了研究。在没有一个案例中,AI Consult 建议导致了伤害。在几个案例中,如果可用或被遵守,AI Consult 建议可能已经预防伤害。 我们与 Penda 的工作由扩大获得安全、高质量护理的承诺驱动。在世界各地,患者经常获得护理的机会有限或经历可预防的伤害。我们进行这项研究不仅作为技术练习,而是作为理解 AI 如何能够切实且负责任地帮助临床医生照顾人们的努力。 与此博文相辅相成的是一份完整的**研究论文**关于该研究、AI Consult 和 Penda 的部署。我们希望这项工作为其他医疗保健组织推进健康 AI 用例前沿提供灵感和实用指导。 我们相信 AI Consult 代表了临床副驾驶的一个早期、有前景的原型,而不是最终形式。我们期望医疗保健生态系统推动实现的进一步改进,例如语音优先界面以减少文档负担,或者如果临床医生确认代理在健康记录中采取行动。需要后续研究来进一步研究这些副驾驶如何影响患者结果、验证这些实现,并将其提炼为成功、规模化部署的可行模板。Penda 现在正在与 PATH 进行随机对照试验,进一步测量对患者结果的影响。 随着 AI 模型的进步,前方的主要挑战不再是模型能力,而是真实世界的实现。弥合模型实现差距是释放 AI 在健康领域潜力的关键。

相似文章

启用全新医疗模式:AI 联合临床医生

Google DeepMind Blog

Google DeepMind 宣布启动 AI 联合临床医生研究计划,旨在通过"三方协同诊疗"改善医疗服务——即 AI 智能体在医生监督下协助患者。该系统在一项初级医疗咨询研究中展现出高准确率且零严重错误,表现优于现有循证综合工具。

降低医疗保险成本并改善护理质量

OpenAI Blog

Oscar Health 已成功部署 OpenAI 的 API 来自动化临床文档和理赔处理,将文档时间减少 40%,理赔解决时间减少 50%,同时建立了一个 AI Pod 来指导整个组织负责任地采用 AI。

利用AI改进患者对临床试验的获取途径

OpenAI Blog

Paradigm 利用 GPT-4 的自然语言理解能力,显著改进了临床试验的患者筛选流程。相比传统人工审核每天约50名患者,该方案能够每分钟评估数百名患者,大幅减轻临床医生的工作负担,并改进患者获取治疗方案的机会。

利用人工智能帮助医生诊断影响儿童的罕见遗传疾病

Reddit r/singularity

来自Boston Children's Hospital、Harvard和OpenAI的研究人员使用OpenAI o3 Deep Research reasoning模型重新分析了376例未解决的罕见疾病病例,经过专家审查和临床确认后,额外确诊了18例(确诊率4.8%)。这项发表在NEJM AI上的研究展示了人工智能辅助工作流程如何帮助专家在科学知识不断发展的情况下重新审视疑难病例。