PaperBench:评估AI复现AI研究的能力

OpenAI Blog 论文

摘要

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。

我们推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:53

# PaperBench:评估 AI 复现 AI 研究的能力 来源:https://openai.com/index/paperbench/ OpenAI 评估 AI 复现 AI 研究的能力 我们推出 PaperBench,一个评估 AI 智能体复现最先进 AI 研究的能力的基准。智能体必须从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估,我们开发了评分标准,将每个复现任务分层分解为更小的子任务,并制定明确的评分标准。总共,PaperBench 包含 8,316 个单独可评分的任务。评分标准由每篇 ICML 论文的作者共同开发,以确保准确性和现实性。为了支持可扩展评估,我们还开发了一个基于 LLM 的评判员,可根据评分标准自动评估复现尝试,并通过为评判员创建单独的基准来评估评判员的性能。我们在 PaperBench 上评估了多个最前沿模型,发现性能最好的测试智能体 Claude 3.5 Sonnet(New)配合开源框架架构,平均复现得分达到 21.0%。最后,我们邀请顶级 ML 博士尝试 PaperBench 的一个子集,发现模型尚未超过人类基线。我们开源(https://github.com/openai/preparedness/tree/main/project/paperbench)了代码,以促进对 AI 智能体工程能力的进一步研究。

相似文章

@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题:当今最好的编码代理能打败公开发表的…

X AI KOLs Timeline

介绍了NatureBench,这是一个跨学科基准测试,包含来自Nature论文的90个任务,用于测试AI编码代理。研究发现,最好的代理(Claude Opus 4.7)仅在17.8%的任务上超越了现有最佳水平,而且其成功往往是通过将科学简化为监督式机器学习,而非真正的发现来实现的。

ResearchClawBench:面向端到端自主科学研究的基准测试

Hugging Face Daily Papers

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following

本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。