介绍 HealthBench

OpenAI Blog 工具

摘要

OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。

HealthBench 是一个用于医疗保健领域人工智能的新评估基准,可在逼真的场景中评估模型。该基准汇集了 250 多位医生的建议,旨在为医疗领域的模型性能和安全性提供统一的标准。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:48

# 介绍 HealthBench 来源:https://openai.com/index/healthbench/ 用于评估 AI 系统与人类健康的基准。 改善人类健康将是 AGI 最具定义性的影响之一。如果得到有效开发和部署,大型语言模型有可能扩大健康信息的获取,支持临床医生提供高质量的护理,并帮助人们为自己和所在社区的健康倡导。 为了实现这一目标,我们需要确保模型既有用又安全。评估对于理解模型在健康环境中的表现至关重要。学术界和业界已经做了大量工作,但许多现有评估不能反映现实场景,缺乏与专家医学意见的严格验证,或没有为最先进的模型留出改进空间。 今天,我们推出 HealthBench:一个专为更好地衡量 AI 系统在健康领域能力而设计的新基准。HealthBench 与 **262** 位在 **60** 个国家执业过的医生合作构建,包含 **5,000** 场逼真的健康对话,每场对话都配有医生自定义的评分标准来评估模型的回答。 HealthBench 基于我们的信念,即健康领域 AI 系统的评估应该是: - **有意义:得分反映真实世界的影响。** 这应该超越考试题目,捕捉复杂的现实场景和工作流程,反映个人和临床医生与模型交互的方式。 - **值得信赖:得分是医生判断的忠实指标。** 评估应该反映医疗专业人士的标准和优先事项,为改进 AI 系统提供严格的基础。 - **未饱和:基准支持进展。** 当前模型应该显示出实质性的改进空间,为模型开发者持续提高性能提供动力。 除了 HealthBench 基准外,我们还分享了多个模型的性能表现,为改进设定了新的基线。 *HealthBench 测试 AI 模型在逼真健康场景中的表现,基于医学专家认为最重要的内容。* HealthBench 中的 5,000 场对话模拟了 AI 模型与个人用户或临床医生之间的互动。模型的任务是为用户的最后一条消息提供最佳回答。HealthBench 中的对话通过综合生成和人类对抗性测试两种方式产生。它们被设计得逼真,类似于大型语言模型的真实使用场景:它们是多轮且多语言的,涵盖了各种普通人和医疗工作者的角色,跨越多个医学专科和背景,并且被选中用于考察难度。相关示例,请参见下方轮播。 HealthBench 是一个*评分标准评估*,其中每个模型回答都针对特定于该对话的医生编写的评分标准进行评估。每个标准概述了理想回答应该包括或避免的内容,例如,要包含的特定事实或要避免的不必要的技术术语。每个标准都有相应的分值,权重与医生对该标准重要性的判断相匹配。HealthBench 包含 **48,562** 个独特的评分标准,对模型性能的具体方面提供了广泛覆盖。模型回答由基于模型的评分器(GPT-4.1)评估,以确定是否满足每个标准,回答根据满足的标准总分与最高可能分数的比较获得整体分数。 HealthBench 对话分为七个*主题*,例如紧急情况、处理不确定性或全球健康。每个主题包含相关示例,每个示例都有特定的评分标准。每个评分标准都有一个*维度*,定义了标准评估的模型行为方面,例如准确性、沟通质量或上下文寻求。 HealthBench 示例由 **262** 位医生在过去一年中创建,他们总共在 **60** 个国家执业过。这些医生精通 **49** 种语言,拥有 **26** 个医学专科的培训。 *我们使用 HealthBench 评估最近前沿模型的性能,并追踪过去几年的进展。* 我们评估了多代模型,发现最近的 OpenAI 模型在**前沿性能**、**成本**和**可靠性**方面都有快速改进。 **前沿性能** 我们按主题(反映真实世界健康交互的不同子集)和维度(反映模型行为的不同维度)对前沿模型在 HealthBench 上的性能进行分层。 我们发现 o3 的表现优于其他模型,包括 Claude 3.7 Sonnet 和 Gemini 2.5 Pro(2025 年 3 月)。最近几个月,OpenAI 的前沿模型在 HealthBench 上改进了 **28%**。这是模型安全性和性能方面的更大飞跃,超过了 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之间的进展。 **成本** 改进的健康模型在资源匮乏地区可能产生最大影响,但前提是它们也必须易于获取。我们在两个扩展轴上研究了成本与性能的权衡:模型规模和测试时间计算。 我们的 2025 年 4 月模型(o3、o4-mini、GPT-4.1)定义了新的性能-成本前沿。我们还观察到小型模型在最近几个月有显著改进,GPT-4.1 nano 的性能超过了 2024 年 8 月的 GPT-4o 模型,尽管便宜 **25 倍**。在低、中、高推理中比较 o3、o4-mini 和 o1 模型,我们看到测试时间计算的改进,这表明推理模型将在接下来的几个月进一步推动这一前沿。 **可靠性** 在健康领域,模型的可靠性至关重要:单个不安全或不正确的答案可能会抵消许多好答案的好处。我们通过*最差-n*性能来检查可靠性:即对于给定示例的 n 个回答,最差的分数是多少?我们在下方绘制了不同模型的可靠性曲线。我们最近的模型展示了实质性改进的最差-n 性能,但仍有很大的改进空间。 **HealthBench 家族** 除了总体、主题级别和维度级别的 HealthBench 分数外,我们还引入了 HealthBench 的两个变体——HealthBench 共识和 HealthBench 困难——分别旨在实现高验证和未饱和。 HealthBench 共识包含 **3,671** 个 HealthBench 示例,配备了针对医生共识进行多次验证的高度筛选的标准子集——只有当多位医生中的多数同意该标准适用于某个示例时,该标准才会被包含。我们报告 HealthBench 共识的错误率,其设计目标是几乎达到零错误的下限。 HealthBench 困难包含 HealthBench 中的 **1,000** 个示例子集,这些是当今前沿模型难以处理的。我们希望它为未来几个月的模型改进提供一个值得追求的目标。 o3 和 GPT-4.1 模型相比 GPT-4o 在 HealthBench 共识上显示了显著的错误率降低,HealthBench 困难为下一代模型提供了足够的改进空间。在我们的论文中,我们提供了 HealthBench 共识的更详细分解,分为 **34** 个单独的标准,衡量性能的高度细微的维度(例如,对于欠定义的用户查询的对冲行为)。 *HealthBench 回答与医生编写的回答进行了对比,以了解 AI 模型性能与专家临床判断的比较。* 我们比较了模型在 HealthBench 上的性能与医学医生的表现,以建立评估的基线。我们让医生为 HealthBench 示例编写*专家回答*:即编写他们认为最适合为聊天机器人对话提供的回答。有些医生被允许使用互联网但不能使用 AI 工具。其他医生还收到了来自 OpenAI 模型的回答,并被要求产生可能的最佳回答,无论是复制和修改现有回答的部分内容还是完全编写新的回答。我们随后在 HealthBench 上对这些专家回答进行了评估。 我们比较了来自我们 2024 年 9 月模型(o1-preview、4o)的参考回答与拥有这些参考的医生的专家回答。具有参考的医生助手模型超过了这些模型的参考,表明医生能够改进 2024 年 9 月模型的回答。2024 年 9 月单独的模型和医生助手模型都超过了没有参考的医生。 我们进行了一项额外的实验,以衡量人类医生是否能够进一步改进我们 2025 年 4 月模型的回答质量——比较来自 o3 和 GPT-4.1 的参考回答与拥有这些参考的医生编写的专家回答。我们发现在这些示例上,医生的回答不再比新模型的回答有所改进。 *HealthBench 评分与医生评分密切一致,表明 HealthBench 反映了专家判断。* 为了了解基于模型的评分器是否很好地评估了评分标准,我们要求医生查看 HealthBench 共识中的回答,以评估回答是否满足评分标准。我们使用这些来开发"元评估"——或评估我们基于模型的评分标准评估与医生判断的对应程度。对于评估评分标准是否得到满足的任务,我们确定我们基于模型的评分器与医生一致的频率,以及医生彼此一致的频率。我们发现模型和医生之间的两两协议与个别医生之间的协议相似。 *HealthBench 评估和数据现已在我们的 GitHub 存储库中开放提供。* 像 HealthBench 这样的评估是我们持续努力的一部分,旨在了解模型在高影响力设置中的行为,并帮助确保进展朝向真实世界的利益。我们的发现表明大型语言模型已经随着时间的推移显著改进,并且已经在我们基准中测试的示例的回答中超过了专家。然而,即使是最先进的系统仍然有实质性的改进空间,特别是在为欠定义查询寻求必要背景和最坏情况可靠性方面。我们期待分享未来模型的结果。 我们这项工作的目标之一是支持整个模型开发生态系统的研究人员使用直接衡量 AI 系统如何造福人类的评估。HealthBench 用户友好,涵盖了广泛的场景和行为。我们正在我们的 GitHub 存储库(https://github.com/openai/simple-evals)中开放提供完整的评估套件和基础数据,并期待社区的意见和反馈。我们希望这能支持共同的进步,以便使用 AI 系统改善人类健康。

相似文章

介绍 LifeSciBench

OpenAI Blog

OpenAI 推出 LifeSciBench,这是一个包含 750 个专家编写任务的基准测试,用于评估 AI 系统在现实生命科学研究工作流中的表现,包括证据处理、分析和科学推理。

AutoMedBench:迈向基于智能体AI模型的医学自动研究

Hugging Face Daily Papers

AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。

OpenAI for Healthcare

OpenAI Blog

OpenAI 推出 OpenAI for Healthcare,这是一套企业级产品,包括 ChatGPT for Healthcare 和 API 解决方案,旨在支持医疗组织采用符合 HIPAA 标准的人工智能。该产品提供针对医疗优化的 GPT-5 模型、带有引用的基于证据的检索、策略集成以及工作流自动化工具,这些工具已在斯坦福医学院和加州大学旧金山分校等主要机构中部署。