@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题:当今最好的编码代理能打败公开发表的…

X AI KOLs Timeline 论文

摘要

介绍了NatureBench,这是一个跨学科基准测试,包含来自Nature论文的90个任务,用于测试AI编码代理。研究发现,最好的代理(Claude Opus 4.7)仅在17.8%的任务上超越了现有最佳水平,而且其成功往往是通过将科学简化为监督式机器学习,而非真正的发现来实现的。

每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题: 当今最好的编码代理能否打败真实Nature论文中已发表的最佳结果——完全自主、不借助网络搜索、且原始方法被隐藏? 介绍NatureBench:从Nature系列论文中提炼出的90个任务。最好的代理(Claude Opus 4.7)仅在17.8%的任务上超越了现有最佳水平。 而令人不安的是——当代理获胜时,它们大多通过悄悄地将科学简化为监督式机器学习来取胜,而非发现任何新东西。瓶颈不在于编码或理解任务,而在于选择正确的方法并深入实践。 基准测试 + NatureGym流水线 + 公共排行榜,全部开放。快来运行你的代理吧。 [huggingface] https://huggingface.co/papers/2606.24530… [leaderboard] https://frontisai.github.io/NatureBench/ 与 @Tsinghua_Uni @FrontisAI 合作
查看原文
查看缓存全文

缓存时间: 2026/06/25 09:16

大家都在竞相打造“AI科学家“。所以我们问了一个直白的问题:
当今最优秀的编码AI智能体,能否仅靠自身能力、不借助网络搜索、在原始方法被隐藏的情况下,超越真实《自然》论文中已发表的最先进水平(SOTA)?

为此,我们推出了 NatureBench:90项从《自然》系列论文中提炼出的任务。表现最佳的智能体(Claude Opus 4.7)仅在其中17.8%的任务上超越了SOTA。

更令人不安的是——当智能体确实胜出时,它们大多数情况下是通过悄悄将科学问题简化为监督式机器学习来实现的,而非真正发现了新东西。瓶颈不在于编码或理解任务,而在于选择正确的方法并深入钻研到足够程度。

基准测试 + NatureGym流水线 + 公开排行榜,全部开源。快来运行你的智能体。
[huggingface]
https://huggingface.co/papers/2606.24530…

[leaderboard]
https://frontisai.github.io/NatureBench/

合作方:@清华大学 @FrontisAI


论文页面 - NatureBench:编码智能体能否达到《自然》系列论文已发表的SOTA?

来源:https://huggingface.co/papers/2606.24530
发布于 6月23日

#2 今日论文 (https://huggingface.co/papers/date/2026-06-24)
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,

摘要

NatureBench 提出了一个跨学科的基准测试,包含90项从《自然》出版物中提取的科学任务,旨在评估AI编码智能体能否实现真正的发现而不仅仅是复现。结果揭示,当前智能体主要依赖于方法论转换,而非真正的科学创新。

我们推出NatureBench (https://huggingface.co/papers?q=NatureBench),一个跨学科基准测试 (https://huggingface.co/papers?q=cross-discipline%20benchmark),包含90项从经过同行评审的《自然》系列出版物中提炼出的任务,用于评估AI编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 能否在真实科学问题上从复现走向发现。NatureBench (https://huggingface.co/papers?q=NatureBench) 构建于NatureGym (https://huggingface.co/papers?q=NatureGym) 之上,这是一个自动化流水线,可根据原始论文为标准化的、每项任务独立的容器化环境 (https://huggingface.co/papers?q=containerized%20environment) 进行构建,解决了此前智能体研究基准测试中因环境碎片化问题 (https://huggingface.co/papers?q=environment-fragmentation%20problem) 而受限的可信度问题。在严格禁用网络搜索的协议下,我们对十种前沿智能体配置进行了评估,发现最强模型在g>0.1标准下仅在17.8%的任务上超越了SOTA。对方法路径的分析显示,智能体成功的主要途径是方法论转换 (https://huggingface.co/papers?q=methodological%20translation),即将科学任务转化为熟悉的监督预测问题 (https://huggingface.co/papers?q=supervised%20prediction%20problems),而非真正的科学发明。失败的主要原因在于方法选择错误和计算预算不足,而非任务理解偏差。我们发布了该基准测试、NatureGym (https://huggingface.co/papers?q=NatureGym) 流水线以及一个含维护方复现结果的公开排行榜。代码:https://github.com/FrontisAI/NatureBench (https://huggingface.co/papers?q=NatureBench)

查看arXiv页面 (https://arxiv.org/abs/2606.24530)
查看PDF (https://arxiv.org/pdf/2606.24530)
项目页面 (https://frontisai.github.io/NatureBench/)
GitHub (https://github.com/FrontisAI/NatureBench)
加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24530)

在你的智能体中获取此论文:

hf papers read 2606.24530

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(0)

未找到引用此论文的模型

在模型README.md中引用arxiv.org/abs/2606.24530即可从本页链接。

引用此论文的数据集(1)

FrontisAI/NatureBench 查看器• 更新于约1小时前 • 90 • 165 • 5 (https://huggingface.co/datasets/FrontisAI/NatureBench)

引用此论文的Space(0)

未找到引用此论文的Space

在Space README.md中引用arxiv.org/abs/2606.24530即可从本页链接。

包含此论文的收藏(1)

相似文章

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。

PaperBench:评估AI复现AI研究的能力

OpenAI Blog

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。