NatureBench:编码代理能否达到《自然》系列论文已发表的最优水平?

Hugging Face Daily Papers 论文

摘要

NatureBench是一个跨学科基准测试,包含来自《自然》出版物的90个科学任务,旨在评估AI编码代理实现真正发现的能力。当前代理主要通过方法转化而非科学创新取得成功。

我们推出了NatureBench,这是一个跨学科基准测试,包含从经过同行评审的《自然》系列出版物中提炼出的90个任务,旨在评估AI编码代理是否能够在真实科学问题上超越复现、实现发现。NatureBench基于NatureGym构建,后者是一个自动化流水线,能够从源论文中构建标准化、每个任务独立的容器化环境,解决了以往研究代理基准测试中因环境碎片化而可信度受限的问题。在严格禁用网络搜索的协议下评估了十个前沿代理配置后,我们发现,在g>0.1的标准下,最强的模型仅能在17.8%的任务上超越当前最优水平。对方法路径的分析显示,代理主要通过方法转化取得成功,即将科学任务转化为熟悉的监督式预测问题,而非真正的科学发明。失败主要源于方法选择错误和计算预算不足,而非任务理解错误。我们发布了该基准测试、NatureGym流水线以及一个带有维护方复现功能的公开排行榜。代码:https://github.com/FrontisAI/NatureBench
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:46

Paper page - NatureBench:编码智能体能否达到Nature系列论文已发表的SOTA水平?

来源:https://huggingface.co/papers/2606.24530 发布于 6月23日

#2 今日论文 (https://huggingface.co/papers/date/2026-06-24) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

NatureBench 提出了一个跨学科基准,包含 90 项源自 Nature 出版物的科学任务,用于评估 AI 编码智能体实现发现(而非仅复现)的能力,揭示了当前智能体主要依赖方法论翻译而非真正的科学创新。

我们引入了 NatureBench (https://huggingface.co/papers?q=NatureBench),一个跨学科基准 (https://huggingface.co/papers?q=cross-discipline%20benchmark),包含 90 项从经同行评审的 Nature 系列出版物中提炼的任务,旨在评估 AI 编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 在真实科学问题上能否超越复现、走向发现。NatureBench (https://huggingface.co/papers?q=NatureBench) 基于 NatureGym (https://huggingface.co/papers?q=NatureGym) 构建,后者是一个自动化流水线,能够从源论文中为每项任务构建标准化的容器化环境 (https://huggingface.co/papers?q=containerized%20environment),解决了此前智能体研究基准因环境碎片化问题 (https://huggingface.co/papers?q=environment-fragmentation%20problem) 而缺乏可信度的困境。在严格禁用网络搜索的协议下,我们对十个前沿智能体配置进行评估,发现最强模型在 g>0.1 准则下仅在 17.8% 的任务上超越了 SOTA。对方法路径的分析表明,智能体主要通过方法论翻译 (https://huggingface.co/papers?q=methodological%20translation) 取得成功,即将科学任务转化为熟悉的监督预测问题 (https://huggingface.co/papers?q=supervised%20prediction%20problems),而非通过真正的科学发明。失败的主要原因是方法选择错误和计算预算不足,而非任务理解错误。我们发布了该基准、NatureGym (https://huggingface.co/papers?q=NatureGym) 流水线以及一个包含维护方复现的公开排行榜。代码:https://github.com/FrontisAI/NatureBench (https://huggingface.co/papers?q=NatureBench)

查看arXiv页面 (https://arxiv.org/abs/2606.24530) 查看PDF (https://arxiv.org/pdf/2606.24530) 项目页面 (https://frontisai.github.io/NatureBench/) GitHub6 (https://github.com/FrontisAI/NatureBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24530)

在您的智能体中获取本论文:

hf papers read 2606.24530

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。

引用本论文的数据集0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。

引用本论文的 Spaces0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。

包含本论文的收藏集0

没有收藏集包含本论文

将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。

相似文章

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。

CODA-BENCH: 代码智能体能处理数据密集型任务吗?

Hugging Face Daily Papers

CODA-BENCH 是一个新的基准测试,用于评估代码智能体在数据密集型任务上的表现,弥合了以代码为中心和以数据为中心的评估之间的差距。它包含来自31个社区的超过1000个任务,具有真实的数据规模和噪声,结果显示即使是最顶尖的智能体也仅能达到61.1%的成功率。

介绍 LifeSciBench

OpenAI Blog

OpenAI 推出 LifeSciBench,这是一个包含 750 个专家编写任务的基准测试,用于评估 AI 系统在现实生命科学研究工作流中的表现,包括证据处理、分析和科学推理。

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。