PaperBench:评估AI复现AI研究的能力

OpenAI Blog 论文

摘要

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。

我们推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:53

# PaperBench:评估 AI 复现 AI 研究的能力 来源:https://openai.com/index/paperbench/ OpenAI 评估 AI 复现 AI 研究的能力 我们推出 PaperBench,一个评估 AI 智能体复现最先进 AI 研究的能力的基准。智能体必须从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估,我们开发了评分标准,将每个复现任务分层分解为更小的子任务,并制定明确的评分标准。总共,PaperBench 包含 8,316 个单独可评分的任务。评分标准由每篇 ICML 论文的作者共同开发,以确保准确性和现实性。为了支持可扩展评估,我们还开发了一个基于 LLM 的评判员,可根据评分标准自动评估复现尝试,并通过为评判员创建单独的基准来评估评判员的性能。我们在 PaperBench 上评估了多个最前沿模型,发现性能最好的测试智能体 Claude 3.5 Sonnet(New)配合开源框架架构,平均复现得分达到 21.0%。最后,我们邀请顶级 ML 博士尝试 PaperBench 的一个子集,发现模型尚未超过人类基线。我们开源(https://github.com/openai/preparedness/tree/main/project/paperbench)了代码,以促进对 AI 智能体工程能力的进一步研究。

相似文章

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。

评估AI执行科研任务的能力

OpenAI Blog

OpenAI推出FrontierScience,这是一个新的基准测试,用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%,在研究型任务中达到25%。该论文提供了早期证据,表明GPT-5能显著加速真实的科学工作流程,将工作周期从数周缩短至数小时,同时建立了度量标准,以追踪朝着AI加速科学研究的进展。