介绍 LifeSciBench

OpenAI Blog 工具

摘要

OpenAI 推出 LifeSciBench,这是一个包含 750 个专家编写任务的基准测试,用于评估 AI 系统在现实生命科学研究工作流中的表现,包括证据处理、分析和科学推理。

介绍 LifeSciBench,这是一个由专家编写并经过专家评审的基准测试,用于评估 AI 系统如何处理现实世界的生命科学研究任务和决策。
查看原文
查看缓存全文

缓存时间: 2026/06/17 20:44

# 介绍 LifeSciBench 智能体人工智能系统正日益具备执行科学任务的能力。然而,它们对生命科学研究者的实用价值,取决于其处理真实研究复杂性的能力。真实研究工作很少表现为单一的事实回忆问题或清晰的预测任务。研究者需要解读不完整的证据、协调相互矛盾的结果、设计困难的实验、排除检测手段的故障、评估转化风险,并在不确定性下决定下一步的行动。 当前的基准测试并未完全捕捉这些能力。许多生命科学评估聚焦于狭窄领域或孤立技能,导致问题采用结构化格式并附带清晰的参考答案。这些评估虽有其价值,但往往无法真正检验模型能否在更广泛的研究级工作中做出贡献。 我们设计 LifeSciBench 正是为了缩小这一差距。每项任务都立足于执业生命科学家的判断——他们拥有博士级训练,并在生物技术和制药环境中拥有推动药物发现项目的直接经验。 LifeSciBench 包含 750 项由专家撰写的任务,涵盖七个工作流程和七个生物学领域。 173 位科学家贡献者 ## LifeSciBench 衡量什么 LifeSciBench 衡量 AI 系统能否支持现实的生命科学研究任务,而不仅仅是回答生物学问题。为了定义基准的分类体系,我们调研了执业生命科学家在实际研究中最常使用的工作流程。然后,我们将他们的回答归纳为七个重复出现的类别:证据处理、分析、设计与优化、科学推理、验证与操作、转化以及科学交流。 每项任务的结构都类似于科学家向知识渊博的协作者提出的请求:科学提示、任何相关的上下文或附件,以及一个自由回答的答案。由专家编写的评分细则用于评估模型能否针对特定问题产生正确的答案,并包含科学家所期望的详尽程度、论证、注意事项和格式。 ## 数据集构建 LifeSciBench 在评估科学推理的同时,也评估现实科学使用中那些定义不那么明确但必不可少的实践技能。其任务要求模型处理现实的研究问题:解读证据、做出基于领域的判断,以及沟通对专家审阅者有用的结论。许多任务还要求模型处理不确定性,并基于支持性数据文件进行推理,而不只是依赖提示文本。 该基准旨在反映生命科学工作的复杂性。总体而言,79% 的任务需要多个推理或决策步骤,平均每个任务包含四个步骤。LifeSciBench 包含 1,062 个附件,涵盖图表、PDF、表格、序列文件、结构或化学文件以及网络参考文献。超过一半的任务(53%)要求模型解读或综合至少一个附件中的信息。 任务由 173 位来自不同生命科学学科的专家科学家创建。每位科学家均具有博士级训练以及生物技术或制药行业经验。任务在接收前可经历任意次修订循环,无固定上限;已接收任务平均经过六次自导自动化审阅循环,并完成至少两轮专家评审。评审基于可验证的正确答案或强专家共识,相关领域内评审者的一致性至少达到 90%。这一过程有助于确保已接收任务在科学上站得住脚、清晰可评分,并能代表应用研究。 ## 评分与评分细则详细说明 LifeSciBench 任务使用详细的任务特定评分细则进行评分,该细则将期望的回答分解为具体的科学论断、计算、决策、论证等。在整个基准中,由专家开发的评分细则包含 19,020 个标准——平均每项任务 25 个——以评估科学正确性和对研究决策的实用性。 这一设计反映了科学工作在实践中的评估方式:许多生命科学任务不能仅通过检查最终答案来评分。一个回答可能得出正确的高级结论,但如果忽略了关键的实验局限性,或未能主动提出具有重大影响的生物学细微差别,仍会被认为不完整。相反,一个部分回答即使没有完全解决任务,也可能包含高质量的推理。 细化的评分细则捕捉了这种细微差别。LifeSciBench 不仅评估最终答案的准确性,还评估模型是否以科学有效且在操作上有用的方式得出答案。 从论文、图表、表格和实验记录中提取、协调和审计科学证据。 ## 评估示例 ## 候选回答 ## 评分标准与分数 识别微抗肌萎缩蛋白定量中的检测/测量问题,包括 MANEX1A 表位共享、无效的全长抗肌萎缩蛋白标准品,以及需要使用重组或正交的转基因特异性测量方法。 +24 解释为何微抗肌萎缩蛋白表达水平自动成为功能性临床获益的有效替代指标。 +22 指出活检部位、组织构成和年龄窗口的混杂因素削弱了表达和 NSAA 解释。 +19 批评 NSAA 比较/统计方法,特别是依赖外部自然病史对照。 +12 处理 AAV 持久性、免疫反应、转氨酶升高、心肌炎以及对更长期表达/安全性随访的需求。 +15 指出患者选择/普适性的差距,包括抗 AAV9 排除、外显子 44 排除以及小样本量。 +8 ## 验证 LifeSciBench 我们通过独立专家评审验证了 LifeSciBench。反馈来自 453 位未参与任务撰写的审阅者。其中,97% 拥有博士学位或同等学历,平均具有 12 年领域经验和 14 篇同行评审论文;88% 曾获得至少一项奖项或奖学金。 审阅者评估每项任务是否反映了强基准问题所需的特质:与真实研究工作的契合度、对科学推理和领域专业知识的适当测试、基于证据或专家共识的程度,以及用于评估模型性能的整体实用性。每个类别的同意率均超过 96%。 审阅者的评论进一步支持了定量评分: ## 结果 我们报告两个互补指标。通过率是模型满足任务级成功阈值(70%)的任务百分比。分数是平均评分标准奖励,当整个任务未解决时也能对单个标准给予部分分数。两者都很重要,因为对科学任务的回答可以部分正确或有用,而无需满足完整答案的所有要求。 模型性能因任务类型、工作流程和回答格式而异。 ## AI 系统显示出早期优势的领域 LifeSciBench 显示,前沿模型在涉及科学综合、沟通和结构化解读的任务上相对最强。绝对通过率仍然不高,因此这些基准领域远未饱和,但 GPT-Rosalind 显示出相比 GPT-5.5 有意义的进步,整体精确通过率从 25.7% 提高到 36.1%。 模型能力进步最显著的方向出现在科学交流与转化上。例如,科学交流的通过率从 GPT-5.5 的 56.3% 提高到 GPT-Rosalind 的 71.1%;该类别任务数量较少(n=9),因此应谨慎解读,但这表明前沿模型在组织证据和生成令人信服的面向专家的解释方面快速进步。转化(药物开发的“从实验室到临床”过程)显示出类似趋势,从 GPT-5.5 的 36.8% 提高到 GPT-Rosalind 的 57.7%,表明模型在将临床前证据与临床意义连接方面的能力快速提升。 评分细则层面的结果指向相同方向。在需要专家有用或可操作输出的任务上,GPT-Rosalind 得分为 44.7%,而 GPT-5.5 为 29.1%。在需要处理不确定性和注意事项的任务上,得分为 44.8%,而 GPT-5.5 为 29.3%。这一模式表明,当任务有清晰的证据边界并要求结构化科学判断时,模型最为有用。 GPT-Rosalind 在由行业和学术专家认定的科学价值任务上领先。 GPT-Rosalind 在核心生命科学工作流程上的性能相比 GPT-5.5 有所提升,其中转化和科学交流的提升最为显著。 ## AI 系统仍显不足的领域 在附件密集、设计密集以及操作受限的科学工作上,性能仍然明显较弱。具体而言,设计、优化与预测仍然是最困难的工作流程之一,GPT-Rosalind 的通过率为 30.7%;分析同样困难,通过率为 30.3%。 附件使用是一个尤为明显的差距。虽然 GPT-Rosalind 在附件密集环境中的表现优于 GPT-5.5,但其通过率仍从纯文本任务的 45.1% 下降到带有附件或 URL 任务的 28.1%。GPT-5.5 也呈现出相同模式,从 29.9% 下降到 21.9%。更详细的分析证实,前沿模型在从复杂图表或大型序列文件中提取信息,并将这些信息整合到最终答案中仍存在困难。 当任务要求基于来源的推理或处理附件时,通过率下降。 回答格式也很重要。需要精确序列、结构或构建层级输出的任务通过率较低:GPT-Rosalind 在数值任务上仅为 14.8%,在序列或结构输出任务上为 24.0%。构建生成任务也很脆弱,GPT-Rosalind 为 27.3%,且相比 GPT-5.5 改进不大。这一差距中,部分原因可能是精确答案任务有更严格的评分标准,计算或格式的微小差异可能导致回答低于通过阈值。但这些失败在科学上有意义,因为许多生命科学工作流程需要足够精确的输出以便直接使用,例如 CRISPR/HDR 供体设计或 siRNA 设计。 模型也常常只完成部分任务而未能完全解决。在大约 14% 的任务中,尽管未达到精确通过阈值,但模型仍获得了可观的评分标准得分。对于 GPT-Rosalind,有 109 项任务通过率低于 20%,但至少获得了 50% 的评分标准奖励。在实践中,这意味着模型可能识别出相关证据或产生合理的部分答案,但最终失败的原因包括:遗漏关键约束、使用错误证据、计算不完整,或未将其推理与科学上有用的最终决策联系起来。 ## 局限性及未来方向 LifeSciBench 是朝着衡量 AI 系统对生命科学研究有用性迈出的一步,但它不能替代在真实研究环境中研究模型。该基准侧重于反映行业重复工作流程的独立任务,同时将许多科学专业和任务类型排除在当前范围之外。真实研究是迭代的:科学家收集新证据、修正假设、设计后续实验,并根据结果调整计划。 因此,在 LifeSciBench 上的强劲表现应解读为现实任务级能力的证据,而不是下游研究影响的直接衡量标准。该基准以行业工作流程为基础,但并未捕捉真实研究项目的全部多样性或动态性——在这些项目中,进展取决于随时间展开的因素。 下一步是将基准性能与真实研究工作流中的部署研究联系起来。虽然 LifeSciBench 是由执业科学家开发的,但衡量 AI 系统是否加速发现或改善研发成果,将需要在真实研究环境中、在更长时间跨度内、并通过多轮推理、反馈和实验跟踪,研究模型的使用和性能。

相似文章

介绍 HealthBench

OpenAI Blog

OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。

ResearchClawBench:面向端到端自主科学研究的基准测试

Hugging Face Daily Papers

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。