提升ChatGPT的健康智能

OpenAI Blog 模型

摘要

OpenAI宣布通过使用GPT-5.5 Instant,在ChatGPT中显著提升了健康相关回答的质量,其准确性与前沿模型相当,并通过医生主导的评估将事实性问题减少了71%。

了解GPT-5.5 Instant如何通过更强的推理能力、更好的上下文理解、更清晰的沟通以及医生参与的评估来改进ChatGPT的健康与养生回答。
查看原文
查看缓存全文

缓存时间: 2026/06/18 20:52

# 提升ChatGPT的健康智能 来源:https://openai.com/index/improving-health-intelligence-in-chatgpt/ 健康是人们使用ChatGPT最有意义的方式之一。每周,超过2.3亿人通过ChatGPT寻求健康和保健方面的帮助:理解健康信息、解读化验结果、为就诊做准备、处理保险问题、养成更健康的生活习惯,以及弄清楚下一步该问什么。 借助GPT‑5.5 Instant,我们在健康领域取得了显著进步,具体体现在:识别何时需要紧急护理、询问相关背景信息、解释不确定性,以及让复杂信息更易于理解。在我们最具挑战性的健康评估中,GPT‑5.5 Instant的表现已达到与前沿Thinking模型相当的水平。由于ChatGPT所有免费用户均可使用该模型,更多人能够从这些改进中受益。 这一进步既反映了模型能力的提升,也体现了医生主导的健康评估工作。在我们的各项努力中,一个由全球医生组成的网络通过审查示例模型回答、描述理想行为以及识别失败模式,帮助我们定义现实健康场景中“好”的标准。与医生合作让我们能够衡量健康领域的进展,并持续改进ChatGPT的回应方式。 ## 衡量健康方面的进展 在健康领域,进步意味着提供准确、易懂且基于良好判断的回答:识别何时需要更多背景信息、解释不确定性而不夸大信心,以及帮助人们理解何时应寻求医疗护理。 为了衡量这一进展,我们使用了针对健康的评估方法,包括[HealthBench](https://openai.com/index/healthbench/)和[HealthBench Professional](https://arxiv.org/pdf/2604.27470v1)(在新窗口中打开)。这些评估采用真实的健康对话和由医生编写的评分标准,来评估准确性、安全性、沟通能力、上下文意识、完整性以及适当的升级建议等特质。 *GPT‑5.5 Instant在包括HealthBench Professional在内的综合健康评估中,达到了与我们最新前沿模型相似的健康表现,相比GPT‑5.3 Instant有显著提升。5.5 Instant(2026年5月发布)和5.3 Instant(2026年3月发布)可供ChatGPT所有免费用户使用(受限于使用限额),我们使用API定价来计算5.4 Thinking和5.5 Thinking的成本。* 作为另一项比较,我们邀请医生为代表性的健康对话撰写回答,不限时间并可访问互联网(但不得使用AI)。随后,另一个医生小组将这些医生回答与模型回答随时间进行对比,审核实际互动中重要的特质,包括准确性、沟通能力、完整性、指令遵循程度和健康决策帮助性,共审查了3,500条回答。 *在该评估的各项标准中,GPT‑5.5 Instant的回答评分高于医生撰写和旧版模型的回答。* 医生认为,GPT‑5.5 Instant的回答在失败模式数量上少于旧版模型和医生的回答。例如,与旧版模型和医生相比,GPT‑5.5 Instant在以下方面出现更少:未根据当地医疗环境进行定制、遗漏危险信号或就医建议、未在需要时向用户寻求更多背景信息。 考虑到我们的模型在健康领域的大规模使用,另一种了解近期模型改进情况的方法是衡量生产流量。我们使用隐私保护监控器来追踪健康回答中可能的事实性问题。根据对近期健康领域生产流量(每周数十亿条消息)的比较,过去两个月内,至少有一个被标记的事实性问题的回答率下降了71%。 ## 更好的回答是什么样的 将不同模型对现实健康问题的回答进行对比,可以看出ChatGPT在健康方面的重要改进:识别可能需紧急处理的情况、更明智地处理不确定性,以及为人们提供更清晰、更有用的下一步行动指导。 ## 进步背后的医学专业知识 这一进步得益于医生们的指导,他们帮助我们定义、衡量和改进ChatGPT的健康回答。 OpenAI与一个由全球260多名医生组成的网络合作,这些医生遍布60个国家、使用49种语言,涵盖26个医学专业。他们的反馈指导ChatGPT如何应对从日常健康问题到更复杂临床场景的各种健康问题。 医生们审查示例模型回答,评估其准确性、清晰度、完整性、适当的谨慎程度以及有用性。他们帮助识别回答是否遗漏了重要背景信息、语气是否过于自信、下一步行动是否应更明确,或者是否应更直接地鼓励某人就医。 迄今为止,医生们已审查了超过70万条示例模型回答,这些回答反映了患者和临床医生在现实世界中如何使用ChatGPT。每隔几分钟,就有一位医生审查一条新回答。他们的反馈成为评分标准和评估标准,帮助研究人员衡量在现实健康场景中,回答是否准确、安全、清晰、完整、谨慎且有用。这让我们更清晰地了解模型在哪些方面取得了进步,哪些方面仍需改进。 ## 将健康改进带给更多人 这项工作也支持OpenAI在健康领域更广泛的工作,包括为医疗保健设计的工具,如[ChatGPT for Clinicians](https://openai.com/index/making-chatgpt-better-for-clinicians/)和[OpenAI for Healthcare](https://openai.com/index/openai-for-healthcare/),它们支持医疗专业人员进行文档编写、研究和医疗服务交付等工作。 改善人类健康将是AGI最具个人化和实际影响力的方面之一。随着我们的模型不断改进,我们的目标是让ChatGPT在这些时刻更准确、更有用、更具影响力——并持续将这种进步带给更多人。

相似文章

Improving health intelligence in ChatGPT

YouTube AI Channels

OpenAI组建了一支由在职医生组成的团队,通过真实临床经验评估和改进ChatGPT在健康领域的回答,旨在提高准确性与沟通方式,最终实现医疗知识的普及化。

介绍 ChatGPT Health

OpenAI Blog

OpenAI 推出 ChatGPT Health,这是一项专为增强隐私和安全而设计的专属体验,用户可安全连接医疗记录和健康应用,获取更个性化的健康指导。该功能针对 ChatGPT 上常见的健康查询用例(每周超过 2.3 亿用户),同时严格隔离数据,并拒绝将健康对话用于模型训练。

用ChatGPT解答健康疑问

OpenAI Blog

OpenAI发布了关于如何使用ChatGPT处理健康相关问题的指南,阐述了用户如何在理解模型在医疗场景中的局限性的同时充分利用该模型。

让 ChatGPT 更好地服务临床医生

OpenAI Blog

OpenAI 推出 ChatGPT for Clinicians,这是面向经认证的美国医疗专业人员的免费 ChatGPT 版本,旨在支持文档记录、研究和患者护理工作流程。