评估AI执行科研任务的能力

OpenAI Blog 2025/12/16 09:00 论文

scientific-reasoning benchmarking gpt-5 ai-science frontier-science mathematical-reasoning expert-evaluation

摘要

OpenAI推出FrontierScience，这是一个新的基准测试，用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%，在研究型任务中达到25%。该论文提供了早期证据，表明GPT-5能显著加速真实的科学工作流程，将工作周期从数周缩短至数小时，同时建立了度量标准，以追踪朝着AI加速科学研究的进展。

OpenAI推出FrontierScience，这是一个基准测试，用于检验AI在物理、化学和生物学中的推理能力，以衡量向真实科学研究进展的进程。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:50

# 评估AI执行科学研究任务的能力来源：https://openai.com/index/frontierscience/ 推理是科学工作的核心。除了回忆事实，科学家还要产生假设、检验并完善假设，以及跨领域综合想法。随着我们的模型能力越来越强，核心问题在于它们如何能够深入推理，为科学研究做出贡献。在过去的一年里，我们的模型取得了重要里程碑，包括在国际数学奥林匹克竞赛和国际信息学奥林匹克竞赛中获得金牌水平的成绩。与此同时，我们开始看到我们最强大的模型（如GPT‐5）有意义地加速了真实的科学工作流程。研究人员正在使用这些系统完成诸如跨学科和跨语言的文献搜索以及处理复杂的数学证明等任务。在许多情况下，模型将原本可能需要数天或数周的工作缩短到了数小时。这一进展记录在我们于2025年11月发布的论文*Early science acceleration experiments with GPT‐5* (https://openai.com/index/accelerating-science-gpt-5/) 中，该论文提供了早期证据，表明GPT‐5可以显著加速科学工作流程。由于加速科学进步是AI造福人类的最有前景的机会之一，我们正在改进模型在困难数学和科学任务上的表现，并开发能够帮助科学家充分利用这些模型的工具。当GPQA(opens in a new window) (https://arxiv.org/abs/2311.12022)（一个由博士专家编写的“谷歌不可破解”科学基准）在2023年11月发布时，GPT‐4的得分为39%，低于专家基线的70%。两年后，GPT‐5.2得分达到92%。随着模型的推理和知识能力持续扩展，需要更困难的基准来衡量和预测模型加速科学研究的能力。此前的科学基准大多聚焦于选择题，要么已经饱和，要么没有集中关注科学领域。为弥补这一差距，我们推出了FrontierScience：一个旨在衡量专家级科学能力的新基准。FrontierScience由物理学、化学和生物学领域的专家编写和验证，包含数百道设计为困难、原创且有意义的题目。FrontierScience包含两个方向的题目：Olympiad（衡量奥林匹克风格的科学推理能力）和Research（衡量现实世界科学研究能力）。提供有关模型科学能力的更多洞察，有助于我们跟踪进展并推动AI加速科学的发展。在我们的初步评估中，GPT‐5.2是我们在FrontierScience-Olympiad（得分77%）和Research（得分25%）上表现最好的模型，领先于其他前沿模型。我们在解决专家级问题方面看到了显著进步，同时为更多进步留下了空间，尤其是在开放式研究型任务上。对科学家而言，这表明当前模型已经能够支持涉及结构化推理的部分研究工作，同时突出表明在提高其开放式思考能力方面仍有大量工作要做。这些结果与科学家当前使用模型的方式一致：利用模型加速研究工作流程，同时依靠人类判断进行问题框架和验证，并且越来越多地用于探索那些原本需要更长时间才能发现的思路和联系——在某些情况下，甚至有助于产生新见解，然后由专家评估和验证。归根结底，对于AI科学能力最重要的基准是它帮助产生的新发现；这些才是最终对科学和社会有意义的东西。FrontierScience处于这一流程的上游。它为我们提供了专家级科学推理的北极星，让我们能够在一组标准化问题上测试模型，观察它们在哪里成功或失败，并确定我们需要改进的地方。FrontierScience是狭隘的，在关键方面存在局限性（例如，专注于受限的、专家编写的问题），并且没有涵盖科学家日常工作中的所有内容。但该领域需要更困难、更原创和更有意义的科学基准，FrontierScience朝着这个方向迈出了一步。完整的FrontierScience评估涵盖700多道文字题目（其中160道在金牌集合中），涵盖物理学、化学和生物学的子领域。该基准分为Olympiad和Research两部分。FrontierScience-Olympiad包含100道由国际奥林匹克奖牌获得者设计的题目，以受限的短答案格式评估科学推理能力。Olympiad集合的设计包含至少与国际奥林匹克竞赛问题一样困难的理论问题。FrontierScience-Research包含60个由博士级科学家（博士生、教授或博士后研究员）设计的原创研究子任务，使用10分量表进行评分。Research集合旨在包含自包含、多步骤的子任务，难度相当于博士科学家在研究中可能遇到的情况。 Olympiad题目是与42位相关领域的前国际奖牌获得者或国家队教练合作创建的，共获得109枚奥林匹克奖牌。研究题目是与45位合格科学家和领域专家合作创建的。所有科学家都是博士生、博士后研究员或教授。他们的专业领域涵盖了一系列专业且重要的科学学科，从量子电动力学到合成有机化学再到进化生物学。两个集合的任务创建过程都包括对OpenAI内部模型的选择排除（例如，丢弃模型正确完成的任务，因此我们预计该评估相对于其他模型而言对这些模型有一定偏差）。我们开源了Olympiad金牌集（100道题）和Research金牌集（60道题），并保留其他题目以跟踪污染。任务经过四个阶段：创建、审查、解决、修订。独立专家互相审查对方的任务，以验证其符合标准。 Olympiad集可以通过短答案评分：可以是数字、表达式或模糊字符串匹配，这有助于验证正确性。然而，这种验证通常会牺牲问题的表达能力和开放性。对于Research集，我们引入了一种基于评分表的架构，用于对更开放式任务进行评分。每个题目都包含一个评分表，其中有多个独立且可客观评估的项目，总计10分。评分表不仅评估最终答案的准确性，还评估中间推理步骤的正确性，从而允许对模型性能和失败进行细致分析。如果解决方案获得至少7/10的评分表分数，则被视为“正确”。响应由基于模型的评分器（GPT‐5）根据短答案或评分表标准进行评估。虽然理想情况下我们会使用专家人工对每个响应进行评分，但这种方法无法规模化，因此我们设计了评分表，使其可以使用模型评分器进行检查。我们开发了一个验证流程，以帮助确保评分表和题目在难度和正确性方面校准良好。 ##### 示例化学研究问题 ##### 示例响应 ##### 示例评分表研究集中的每个任务都使用一个总计10分的评分表进行评分，该评分表可由专家或模型评分器使用。为了扩展我们评估模型的能力，我们使用另一个模型来对响应进行评分。我们评估了几个前沿模型：GPT‐5.2、Claude Opus 4.5、Gemini 3 Pro、GPT‐4o、OpenAI o4-mini和OpenAI o3在FrontierScience-Olympiad和FrontierScience-Research上的表现。所有推理模型除了GPT‐5.2使用“xhigh”外，均以“high”推理努力进行评估。在我们的初步评估中，GPT‐5.2是我们在FrontierScience-Olympiad（得分77%）和Research（得分25%）上表现最好的模型，领先于其他前沿模型。Gemini 3 Pro在Olympiad集上与GPT‐5.2相当（得分76%）。我们在解决专家级问题方面看到了显著进步，尤其是在开放式研究型任务上。仍有进步空间：通过分析失败记录，前沿模型有时会出现推理、逻辑和计算错误，不理解专业科学概念，并产生事实不准确的情况。我们比较了几个前沿模型的准确率。GPT‐5.2是我们在FrontierScience-Research和Olympiad集上表现最高的模型。我们比较了GPT‐5.2和o3在不同推理努力下的准确率。更长的思考时间会带来更高的准确率。尽管FrontierScience代表了科学基准难度上的一次进步，但仍有许多局限性。FrontierScience由问题陈述受限的题目组成，这侧重于评估最终答案（Olympiad）或评估完成研究任务的推理过程（Research）。此外，在较长任务上使用包含多个组件的评分表不如检查最终答案那么客观。 FrontierScience提供了一个更高分辨率的快照，展示了模型在困难的、专家编写的题目上的推理能力，但并未完整描述科学在实践中是如何完成的。特别是，它没有评估科学研究的一个重要部分：模型如何产生真正新颖的假设，或如何与多种模态进行交互，包括视频数据和现实世界中的实验系统。展望未来，我们预计科学推理方面的进步将来自更好的通用推理系统以及专注于提升科学能力的努力。FrontierScience是众多工具之一，随着模型的改进，我们计划迭代该基准，将其扩展到新的领域，并与更多现实世界的评估相结合，观察这些系统实际赋予科学家哪些能力。像FrontierScience这样的基准有助于我们理解当前AI系统的弱点，从而集中精力使模型成为科学发现中可靠的伙伴。

评估AI执行科研任务的能力

相似文章

用GPT-5加速科学研究的早期实验

衡量AI加速生物学研究的能力

用GPT-5.2推进科学与数学

GPT-5.5 正式发布

GPT-5在医学研究中的应用

提交意见反馈