PaperBench：评估AI复现AI研究的能力

OpenAI Blog 2025/04/02 10:15 论文

摘要

OpenAI推出PaperBench，一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文，包含8,316个可评分任务。表现最好的模型（Claude 3.5 Sonnet）仅达到21%的复现分数，低于人类博士级别的表现，凸显了当前自主研究能力的局限性。

我们推出PaperBench，一个评估AI代理复现最先进AI研究能力的基准。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:53

# PaperBench：评估 AI 复现 AI 研究的能力来源：https://openai.com/index/paperbench/ OpenAI 评估 AI 复现 AI 研究的能力我们推出 PaperBench，一个评估 AI 智能体复现最先进 AI 研究的能力的基准。智能体必须从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估，我们开发了评分标准，将每个复现任务分层分解为更小的子任务，并制定明确的评分标准。总共，PaperBench 包含 8,316 个单独可评分的任务。评分标准由每篇 ICML 论文的作者共同开发，以确保准确性和现实性。为了支持可扩展评估，我们还开发了一个基于 LLM 的评判员，可根据评分标准自动评估复现尝试，并通过为评判员创建单独的基准来评估评判员的性能。我们在 PaperBench 上评估了多个最前沿模型，发现性能最好的测试智能体 Claude 3.5 Sonnet（New）配合开源框架架构，平均复现得分达到 21.0%。最后，我们邀请顶级 ML 博士尝试 PaperBench 的一个子集，发现模型尚未超过人类基线。我们开源（https://github.com/openai/preparedness/tree/main/project/paperbench）了代码，以促进对 AI 智能体工程能力的进一步研究。

PaperBench：评估AI复现AI研究的能力

相似文章

ProgramBench（5分钟阅读）

评估AI执行科研任务的能力

我为编码智能体的“记忆”构建了一个基准测试，期待他人来挑战它

@JeremyNguyenPhD: “我让 3 个 AI 代理整晚独自研究一个问题，它们带回了对 72 篇同行评审论文的综述” -- @ProfJieDi…

@AiwithYasir：突发：这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车

提交意见反馈