PaperBench:评估AI复现AI研究的能力
摘要
OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。
我们推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。
查看缓存全文
缓存时间: 2026/04/20 14:53
# PaperBench:评估 AI 复现 AI 研究的能力
来源:https://openai.com/index/paperbench/
OpenAI 评估 AI 复现 AI 研究的能力
我们推出 PaperBench,一个评估 AI 智能体复现最先进 AI 研究的能力的基准。智能体必须从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估,我们开发了评分标准,将每个复现任务分层分解为更小的子任务,并制定明确的评分标准。总共,PaperBench 包含 8,316 个单独可评分的任务。评分标准由每篇 ICML 论文的作者共同开发,以确保准确性和现实性。为了支持可扩展评估,我们还开发了一个基于 LLM 的评判员,可根据评分标准自动评估复现尝试,并通过为评判员创建单独的基准来评估评判员的性能。我们在 PaperBench 上评估了多个最前沿模型,发现性能最好的测试智能体 Claude 3.5 Sonnet(New)配合开源框架架构,平均复现得分达到 21.0%。最后,我们邀请顶级 ML 博士尝试 PaperBench 的一个子集,发现模型尚未超过人类基线。我们开源(https://github.com/openai/preparedness/tree/main/project/paperbench)了代码,以促进对 AI 智能体工程能力的进一步研究。
相似文章
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
评估AI执行科研任务的能力
OpenAI推出FrontierScience,这是一个新的基准测试,用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%,在研究型任务中达到25%。该论文提供了早期证据,表明GPT-5能显著加速真实的科学工作流程,将工作周期从数周缩短至数小时,同时建立了度量标准,以追踪朝着AI加速科学研究的进展。
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。
@JeremyNguyenPhD: “我让 3 个 AI 代理整晚独自研究一个问题,它们带回了对 72 篇同行评审论文的综述” -- @ProfJieDi…
Jie Ding 教授开源了 Autoresearch 和 WorldSeed,这是两款 AI 代理框架,能够在一夜之间自主分析 72 篇同行评审论文以解决研究问题。
@AiwithYasir:突发:这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车
斯坦福与哈佛研究者指出,agentic AI 系统在现实部署中失败,并非因为“不够聪明”,而是某些根本性问题导致演示效果在实际场景中崩溃。