NatureBench:编码代理能否达到《自然》系列论文已发表的最优水平?
摘要
NatureBench是一个跨学科基准测试,包含来自《自然》出版物的90个科学任务,旨在评估AI编码代理实现真正发现的能力。当前代理主要通过方法转化而非科学创新取得成功。
查看缓存全文
缓存时间: 2026/06/24 05:46
Paper page - NatureBench:编码智能体能否达到Nature系列论文已发表的SOTA水平?
来源:https://huggingface.co/papers/2606.24530 发布于 6月23日
#2 今日论文 (https://huggingface.co/papers/date/2026-06-24) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
NatureBench 提出了一个跨学科基准,包含 90 项源自 Nature 出版物的科学任务,用于评估 AI 编码智能体实现发现(而非仅复现)的能力,揭示了当前智能体主要依赖方法论翻译而非真正的科学创新。
我们引入了 NatureBench (https://huggingface.co/papers?q=NatureBench),一个跨学科基准 (https://huggingface.co/papers?q=cross-discipline%20benchmark),包含 90 项从经同行评审的 Nature 系列出版物中提炼的任务,旨在评估 AI 编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 在真实科学问题上能否超越复现、走向发现。NatureBench (https://huggingface.co/papers?q=NatureBench) 基于 NatureGym (https://huggingface.co/papers?q=NatureGym) 构建,后者是一个自动化流水线,能够从源论文中为每项任务构建标准化的容器化环境 (https://huggingface.co/papers?q=containerized%20environment),解决了此前智能体研究基准因环境碎片化问题 (https://huggingface.co/papers?q=environment-fragmentation%20problem) 而缺乏可信度的困境。在严格禁用网络搜索的协议下,我们对十个前沿智能体配置进行评估,发现最强模型在 g>0.1 准则下仅在 17.8% 的任务上超越了 SOTA。对方法路径的分析表明,智能体主要通过方法论翻译 (https://huggingface.co/papers?q=methodological%20translation) 取得成功,即将科学任务转化为熟悉的监督预测问题 (https://huggingface.co/papers?q=supervised%20prediction%20problems),而非通过真正的科学发明。失败的主要原因是方法选择错误和计算预算不足,而非任务理解错误。我们发布了该基准、NatureGym (https://huggingface.co/papers?q=NatureGym) 流水线以及一个包含维护方复现的公开排行榜。代码:https://github.com/FrontisAI/NatureBench (https://huggingface.co/papers?q=NatureBench)
查看arXiv页面 (https://arxiv.org/abs/2606.24530) 查看PDF (https://arxiv.org/pdf/2606.24530) 项目页面 (https://frontisai.github.io/NatureBench/) GitHub6 (https://github.com/FrontisAI/NatureBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24530)
在您的智能体中获取本论文:
hf papers read 2606.24530
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。
引用本论文的数据集0
没有数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。
引用本论文的 Spaces0
没有 Space 链接本论文
在 Space README.md 中引用 arxiv.org/abs/2606.24530 即可从本页面链接。
包含本论文的收藏集0
没有收藏集包含本论文
将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。
相似文章
AI编程代理可复现社会科学发现
本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。
CODA-BENCH: 代码智能体能处理数据密集型任务吗?
CODA-BENCH 是一个新的基准测试,用于评估代码智能体在数据密集型任务上的表现,弥合了以代码为中心和以数据为中心的评估之间的差距。它包含来自31个社区的超过1000个任务,具有真实的数据规模和噪声,结果显示即使是最顶尖的智能体也仅能达到61.1%的成功率。
介绍 LifeSciBench
OpenAI 推出 LifeSciBench,这是一个包含 750 个专家编写任务的基准测试,用于评估 AI 系统在现实生命科学研究工作流中的表现,包括证据处理、分析和科学推理。
跨尺度科学挑战的AI智能体基准测试
介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。
@IntologyAI:编码智能体能做研究吗?我们发布 NanoGPT-Bench,这是我们用来测试编码智能体在 AI 研发问题上的一项内部评估…
IntologyAI 发布了 NanoGPT-Bench,这是一个用于评估编码智能体在 AI 研发任务上表现的内部基准。当前的智能体仅恢复了人类进展的 9.3%,主要通过超参数调优,凸显了算法研究能力方面的差距。