提升ChatGPT的健康智能

OpenAI Blog 2026/06/18 11:00 模型

chatgpt health gpt-5-5 openai medical-ai model-update ai-safety

摘要

OpenAI宣布通过使用GPT-5.5 Instant，在ChatGPT中显著提升了健康相关回答的质量，其准确性与前沿模型相当，并通过医生主导的评估将事实性问题减少了71%。

了解GPT-5.5 Instant如何通过更强的推理能力、更好的上下文理解、更清晰的沟通以及医生参与的评估来改进ChatGPT的健康与养生回答。

查看原文

查看缓存全文

缓存时间: 2026/06/18 20:52

# 提升ChatGPT的健康智能来源：https://openai.com/index/improving-health-intelligence-in-chatgpt/ 健康是人们使用ChatGPT最有意义的方式之一。每周，超过2.3亿人通过ChatGPT寻求健康和保健方面的帮助：理解健康信息、解读化验结果、为就诊做准备、处理保险问题、养成更健康的生活习惯，以及弄清楚下一步该问什么。借助GPT‑5.5 Instant，我们在健康领域取得了显著进步，具体体现在：识别何时需要紧急护理、询问相关背景信息、解释不确定性，以及让复杂信息更易于理解。在我们最具挑战性的健康评估中，GPT‑5.5 Instant的表现已达到与前沿Thinking模型相当的水平。由于ChatGPT所有免费用户均可使用该模型，更多人能够从这些改进中受益。这一进步既反映了模型能力的提升，也体现了医生主导的健康评估工作。在我们的各项努力中，一个由全球医生组成的网络通过审查示例模型回答、描述理想行为以及识别失败模式，帮助我们定义现实健康场景中“好”的标准。与医生合作让我们能够衡量健康领域的进展，并持续改进ChatGPT的回应方式。 ## 衡量健康方面的进展在健康领域，进步意味着提供准确、易懂且基于良好判断的回答：识别何时需要更多背景信息、解释不确定性而不夸大信心，以及帮助人们理解何时应寻求医疗护理。为了衡量这一进展，我们使用了针对健康的评估方法，包括[HealthBench](https://openai.com/index/healthbench/)和[HealthBench Professional](https://arxiv.org/pdf/2604.27470v1)（在新窗口中打开）。这些评估采用真实的健康对话和由医生编写的评分标准，来评估准确性、安全性、沟通能力、上下文意识、完整性以及适当的升级建议等特质。 *GPT‑5.5 Instant在包括HealthBench Professional在内的综合健康评估中，达到了与我们最新前沿模型相似的健康表现，相比GPT‑5.3 Instant有显著提升。5.5 Instant（2026年5月发布）和5.3 Instant（2026年3月发布）可供ChatGPT所有免费用户使用（受限于使用限额），我们使用API定价来计算5.4 Thinking和5.5 Thinking的成本。* 作为另一项比较，我们邀请医生为代表性的健康对话撰写回答，不限时间并可访问互联网（但不得使用AI）。随后，另一个医生小组将这些医生回答与模型回答随时间进行对比，审核实际互动中重要的特质，包括准确性、沟通能力、完整性、指令遵循程度和健康决策帮助性，共审查了3,500条回答。 *在该评估的各项标准中，GPT‑5.5 Instant的回答评分高于医生撰写和旧版模型的回答。* 医生认为，GPT‑5.5 Instant的回答在失败模式数量上少于旧版模型和医生的回答。例如，与旧版模型和医生相比，GPT‑5.5 Instant在以下方面出现更少：未根据当地医疗环境进行定制、遗漏危险信号或就医建议、未在需要时向用户寻求更多背景信息。考虑到我们的模型在健康领域的大规模使用，另一种了解近期模型改进情况的方法是衡量生产流量。我们使用隐私保护监控器来追踪健康回答中可能的事实性问题。根据对近期健康领域生产流量（每周数十亿条消息）的比较，过去两个月内，至少有一个被标记的事实性问题的回答率下降了71%。 ## 更好的回答是什么样的将不同模型对现实健康问题的回答进行对比，可以看出ChatGPT在健康方面的重要改进：识别可能需紧急处理的情况、更明智地处理不确定性，以及为人们提供更清晰、更有用的下一步行动指导。 ## 进步背后的医学专业知识这一进步得益于医生们的指导，他们帮助我们定义、衡量和改进ChatGPT的健康回答。 OpenAI与一个由全球260多名医生组成的网络合作，这些医生遍布60个国家、使用49种语言，涵盖26个医学专业。他们的反馈指导ChatGPT如何应对从日常健康问题到更复杂临床场景的各种健康问题。医生们审查示例模型回答，评估其准确性、清晰度、完整性、适当的谨慎程度以及有用性。他们帮助识别回答是否遗漏了重要背景信息、语气是否过于自信、下一步行动是否应更明确，或者是否应更直接地鼓励某人就医。迄今为止，医生们已审查了超过70万条示例模型回答，这些回答反映了患者和临床医生在现实世界中如何使用ChatGPT。每隔几分钟，就有一位医生审查一条新回答。他们的反馈成为评分标准和评估标准，帮助研究人员衡量在现实健康场景中，回答是否准确、安全、清晰、完整、谨慎且有用。这让我们更清晰地了解模型在哪些方面取得了进步，哪些方面仍需改进。 ## 将健康改进带给更多人这项工作也支持OpenAI在健康领域更广泛的工作，包括为医疗保健设计的工具，如[ChatGPT for Clinicians](https://openai.com/index/making-chatgpt-better-for-clinicians/)和[OpenAI for Healthcare](https://openai.com/index/openai-for-healthcare/)，它们支持医疗专业人员进行文档编写、研究和医疗服务交付等工作。改善人类健康将是AGI最具个人化和实际影响力的方面之一。随着我们的模型不断改进，我们的目标是让ChatGPT在这些时刻更准确、更有用、更具影响力——并持续将这种进步带给更多人。

提升ChatGPT的健康智能

相似文章

Improving health intelligence in ChatGPT

介绍 ChatGPT Health

用ChatGPT解答健康疑问

@OpenAI：为了改进我们的模型，我们与遍布60个国家、涵盖49种语言的全球数百名医生网络合作……

让 ChatGPT 更好地服务临床医生

提交意见反馈