NatureBench：编码代理能否达到《自然》系列论文已发表的最优水平？

Hugging Face Daily Papers 2026/06/23 00:00 论文

benchmark coding-agents scientific-discovery cross-disciplinary evaluation ai-agents

摘要

NatureBench是一个跨学科基准测试，包含来自《自然》出版物的90个科学任务，旨在评估AI编码代理实现真正发现的能力。当前代理主要通过方法转化而非科学创新取得成功。

我们推出了NatureBench，这是一个跨学科基准测试，包含从经过同行评审的《自然》系列出版物中提炼出的90个任务，旨在评估AI编码代理是否能够在真实科学问题上超越复现、实现发现。NatureBench基于NatureGym构建，后者是一个自动化流水线，能够从源论文中构建标准化、每个任务独立的容器化环境，解决了以往研究代理基准测试中因环境碎片化而可信度受限的问题。在严格禁用网络搜索的协议下评估了十个前沿代理配置后，我们发现，在g>0.1的标准下，最强的模型仅能在17.8%的任务上超越当前最优水平。对方法路径的分析显示，代理主要通过方法转化取得成功，即将科学任务转化为熟悉的监督式预测问题，而非真正的科学发明。失败主要源于方法选择错误和计算预算不足，而非任务理解错误。我们发布了该基准测试、NatureGym流水线以及一个带有维护方复现功能的公开排行榜。代码：https://github.com/FrontisAI/NatureBench

查看原文

查看缓存全文

缓存时间: 2026/06/24 05:46

Paper page - NatureBench：编码智能体能否达到Nature系列论文已发表的SOTA水平？

来源：https://huggingface.co/papers/2606.24530 发布于 6月23日

#2 今日论文 (https://huggingface.co/papers/date/2026-06-24) 作者：

摘要

NatureBench 提出了一个跨学科基准，包含 90 项源自 Nature 出版物的科学任务，用于评估 AI 编码智能体实现发现（而非仅复现）的能力，揭示了当前智能体主要依赖方法论翻译而非真正的科学创新。

我们引入了 NatureBench (https://huggingface.co/papers?q=NatureBench)，一个跨学科基准 (https://huggingface.co/papers?q=cross-discipline%20benchmark)，包含 90 项从经同行评审的 Nature 系列出版物中提炼的任务，旨在评估 AI 编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 在真实科学问题上能否超越复现、走向发现。NatureBench (https://huggingface.co/papers?q=NatureBench) 基于 NatureGym (https://huggingface.co/papers?q=NatureGym) 构建，后者是一个自动化流水线，能够从源论文中为每项任务构建标准化的容器化环境 (https://huggingface.co/papers?q=containerized%20environment)，解决了此前智能体研究基准因环境碎片化问题 (https://huggingface.co/papers?q=environment-fragmentation%20problem) 而缺乏可信度的困境。在严格禁用网络搜索的协议下，我们对十个前沿智能体配置进行评估，发现最强模型在 g>0.1 准则下仅在 17.8% 的任务上超越了 SOTA。对方法路径的分析表明，智能体主要通过方法论翻译 (https://huggingface.co/papers?q=methodological%20translation) 取得成功，即将科学任务转化为熟悉的监督预测问题 (https://huggingface.co/papers?q=supervised%20prediction%20problems)，而非通过真正的科学发明。失败的主要原因是方法选择错误和计算预算不足，而非任务理解错误。我们发布了该基准、NatureGym (https://huggingface.co/papers?q=NatureGym) 流水线以及一个包含维护方复现的公开排行榜。代码：https://github.com/FrontisAI/NatureBench (https://huggingface.co/papers?q=NatureBench)

查看arXiv页面 (https://arxiv.org/abs/2606.24530) 查看PDF (https://arxiv.org/pdf/2606.24530) 项目页面 (https://frontisai.github.io/NatureBench/) GitHub6 (https://github.com/FrontisAI/NatureBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24530)

在您的智能体中获取本论文：

hf papers read 2606.24530

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。

引用本论文的数据集0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。

引用本论文的 Spaces0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。

包含本论文的收藏集0

没有收藏集包含本论文

将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。

NatureBench：编码代理能否达到《自然》系列论文已发表的最优水平？

Paper page - NatureBench：编码智能体能否达到Nature系列论文已发表的SOTA水平？

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的收藏集0

相似文章

AI编程代理可复现社会科学发现

CODA-BENCH: 代码智能体能处理数据密集型任务吗？

介绍 LifeSciBench

跨尺度科学挑战的AI智能体基准测试

@IntologyAI：编码智能体能做研究吗？我们发布 NanoGPT-Bench，这是我们用来测试编码智能体在 AI 研发问题上的一项内部评估…

提交意见反馈