ResearchClawBench:面向端到端自主科学研究的标准基准
摘要
ResearchClawBench是一个评估端到端自主科学研究的基准,涵盖10个领域的40个任务,采用专家精心设计的评分标准。当前系统得分较低,凸显了实现可靠自主科学发现的挑战。
arXiv:2606.07591v1 公告类型:新
摘要:AI编程代理越来越多地用于科学工作,但其端到端自主研究能力仍难以验证。我们提出了ResearchClawBench,这是一个评估自主科学研究的基准,涵盖10个科学领域的40个任务。每个任务基于一篇已发表的实际论文,提供相关文献和原始数据,并在评估过程中隐藏目标论文。专家策划的多模态评分标准将目标科学产物分解为加权标准,从而能够评估目标论文级别的再发现,同时为新的发现留出空间。我们在统一协议下评估了七个自主研究代理,并通过轻量级ResearchHarness评估了十七个原生大语言模型。当前系统仍远未实现可靠的再发现:最强的自主代理Claude Code平均得分为21.5,最强的ResearchHarness大语言模型Claude-Opus-4.7平均得分为20.7,大语言模型前沿均值仅为26.5。错误分析表明,失败主要集中在实验协议不匹配、证据不匹配以及缺乏科学核心。ResearchClawBench为衡量自主科学研究的进展提供了一个可复现的评估前沿。
查看缓存全文
缓存时间: 2026/06/09 08:47
# ResearchClawBench:面向端到端自主科学研究的基准测试 来源:https://arxiv.org/html/2606.07591 \\setleftlogo \[100pt\]imgs/logo\_left\.png\\setrightlogo\[180pt\]imgs/logo\_right\.png ###### 摘要 摘要:人工智能编码智能体越来越多地用于科学工作,但其端到端的自主研究能力仍难以验证。我们提出 ResearchClawBench,这是一个基准测试,涵盖 10 个科学领域的 40 项任务,用于评估自主科学研究能力。每项任务都基于一篇真实已发表的论文,提供相关文献和原始数据,并在评估过程中隐藏目标论文。由专家策划的多模态评分标准将目标科学成果分解为加权准则,从而能够评估目标论文级别的重新发现,同时为新的发现留有空间。我们在统一协议下评估了七个自主研究智能体,并通过轻量级 ResearchHarness 评估了十七个原生大语言模型。当前系统距离可靠的重新发现还有很大差距:最强的自主智能体 Claude Code 平均得分为 21.5,最强的 ResearchHarness 大语言模型 Claude-Opus-4.7 平均得分为 20.7,而大语言模型前沿均值仅为 26.5。错误分析表明,失败主要集中在实验协议不匹配、证据不匹配以及科学核心缺失上。ResearchClawBench 为衡量自主科学研究进展提供了一个可复现的评估前沿。 ![[无标题图片]](https://arxiv.org/html/2606.07591v1/imgs/logos/researchclaw.png) 页面:https://internscience.github.io/ResearchClawBench-Home/ ![[无标题图片]](https://arxiv.org/html/2606.07591v1/x1.png) 代码:https://github.com/InternScience/ResearchClawBench ![[无标题图片]](https://arxiv.org/html/2606.07591v1/x2.png) 数据:https://huggingface.co/datasets/InternScience/ResearchClawBench ## 1 引言 自动化科学研究(douglas2025researchers)正成为人工智能的重要前沿。诸如 OpenClaw、Claude Code 和 Codex CLI 等编码智能体越来越多地被宣传为能够“自主进行研究”的工具,但目前缺乏一种原则性的方法来评估这些说法是否经得起检验。因此需要一个能够捕捉完整研究过程,并能可靠评估开放性科学输出的基准测试。现有的基准测试涵盖了相邻但不完整的场景:科学问答与推理(welbl2017crowdsourcing; rein2023gpqa)、交互式科学环境(wang2022scienceworld; jansen2024discoveryworld),以及自动化研究或论文复现(lu2024ai; starace2025paperbench)。然而,没有一个基准要求人工智能系统从原始实验数据开始,生成完整的研究输出,并通过可验证的锚点进行评估。这一空白使得客观衡量人工智能的自主研究能力或比较不同系统的进展变得困难。 设计这样一个基准测试面临着若干重要挑战。首先,任务本身必须具有科学意义,并与真实研究场景一致。其次,科学输出是开放性的:研究报告难以通过精确匹配或简单的单元测试来评估,而使用大语言模型作为评判者可能会引入偏差(li2025generation)。第三,科学研究在数据模态、分析方法以及证据标准上具有异质性,狭隘的覆盖范围会使系统过度适应于有限的能力。 我们提出 ResearchClawBench(RCBench)来应对这些挑战。为确保任务的重要性,我们从真实已发表的论文出发:领域专家挑选具有明确科学问题、可获取原始数据以及实际研究价值的目标论文,并将其转化为可执行的任务描述。为评估开放性的科学输出,我们在评估端隐藏目标论文,并围绕它构建由专家策划的评分标准,将预期输出分解为可验证且加权的子准则。为支持任务的多样性,RCBench 涵盖 10 个科学领域,包括天文学、化学、地球科学、能源科学、信息科学、生命科学、材料科学、数学、神经科学和物理学,任务涵盖诊断分析和计量优化。 基于此基准测试,我们在统一评估协议下系统性地评估了 7 个自主研究智能体在 RCBench 上的表现。我们的评分锚定在 50 分:达到这一水平的系统输出与目标论文匹配,而高于此分数则表明有新的发现。结果显示,最强的自主智能体 Claude Code 平均得分为 21.5;即使取每项任务中自主智能体的最佳结果,其前沿均值也仅为 24.6。这些结果表明,当前的自主研究智能体距离可靠的目标论文级别重新发现还有很大差距。 为便于与缺乏完整智能体框架的模型进行比较(liu2025agent),我们引入了 ResearchHarness,并用它评估了 17 个原生大语言模型基线。Claude-Opus-4.7 平均得分为 20.7,大语言模型前沿均值为 26.5,表明原生大语言模型同样难以完成稳定的端到端重新发现。 通过真实的科学发现任务、端到端流程评估以及细粒度的评分标准,ResearchClawBench 填补了自主科学研究评估中的关键空白。我们将贡献总结如下: - **ResearchClawBench**:40 项真实科学发现任务,配备专家标注的评分标准,覆盖 10 个领域和多种场景。 - **ResearchHarness**:一个统一的轻量级工具使用评估框架,用于大语言模型基线。 - **统一评估**:对七个自主研究智能体和十七个原生大语言模型基线的系统性评估,量化了当前人工智能研究系统与目标论文级别重新发现之间的差距。 ## 2 相关工作 ### 2.1 科学能力与科学任务基准 现有对人工智能科学能力的评估包括科学问答、高难度科学推理以及特定领域的科学基准。SciQ(welbl2017crowdsourcing)、GPQA(rein2023gpqa)、MMLU(wang2024mmlu)和 Humanity’s Last Exam(phan2025humanity)主要采用问答、考试式或专家级问题来衡量科学知识、事实理解以及静态推理。SciBench(wang2023scibench)进一步针对大学水平的数学、物理和化学问题。ATLAS(liu2025atlas)则将其扩展到高难度、多学科的前沿科学推理。特定领域的基准测试(anjum2025domain)也在增长:PHYSICS 评估开放性的大学物理推理;ChemBench(walker2010chembench)和 ChemLLMBench(guo2023can)聚焦于化学知识、反应理解、分子表示及安全性;EarthSE(xu2025earthse)构建了从基础知识到开放性探索的多层次地球科学评估;MSEarth(zhao2025msearth)则利用高质量科学出版物进行研究生级别的地球科学评估。 这些基准对于科学知识和领域推理是有用的,但它们并未涵盖自主科学智能体所需的完整研究循环。从 RCBench 的视角来看,这些基准仍然集中在局部科学任务上,例如回答科学问题、解读图表、检索数据库条目或解决短小的领域特定问题。即使任务基于科学背景,通常也不要求系统围绕同一个开放科学问题进行文献综述、处理原始数据、设计并执行实验、生成图表以及撰写研究报告。因此,它们评估的是科学知识、领域推理、多模态理解及其他研究子技能,但无法确定人工智能系统是否能够完成一个独立的科学过程,并达到发现级别的成果。 ### 2.2 研究智能体基准与自主研究系统 与静态科学基准相比,另一类工作在动态研究式环境中评估智能体,包括科学编码、论文复现以及自主科学发现。SciCode(tian2024scicode)评估针对现实科学问题的代码生成,而 SciDataCopilot(rao2026scidatacopilot)则专注于智能体对原始科学数据的准备,以支持发现流程。MLAgentBench(huang2023mlagentbench)将语言智能体置于机器学习实验工作流中,评估文件操作、代码执行以及基于反馈的迭代。MLE-bench(chan2025mle)进一步利用 Kaggle 竞赛来评估端到端的机器学习工程,MLGym(nathani2025mlgym)将机器学习研究组织为健身房式环境,强调实验迭代、结果分析和策略调整。 在论文复现方面,PaperBench(starace2025paperbench)要求智能体根据给定论文实现方法并运行实验,通过分层评分标准评估复现的实验、结果和写作成品是否与原论文一致。CORE-Bench(siegel2024core)评估根据提供的论文代码和数据进行计算可复现性的能力,而 ReproduceBench(zhao2025autoreproduce)研究从论文及其上下文中自动生成可执行实验代码的方法。 在科学发现层面,ScienceWorld(wang2022scienceworld)和 DiscoveryWorld(jansen2024discoveryworld)将科学任务置于交互式环境中,要求智能体在文本环境或虚拟科学世界中行动、观察、形成假设、设计实验并分析结果。ScienceAgentBench(chen2025scienceagentbench)从同行评审论文中提取数据驱动的科学发现任务,使评估更接近真实论文中的数据分析工作流。SGI-Bench(xu2025probing)通过科学家对齐的工作流(涵盖研究、想法生成、实验和分析)来探测科学通用智能。AIRS-Bench(lupidi2026airs)和 MLR-Bench(chen2026mlr)针对开放式人工智能研究或完整的研究生命周期,进一步在开放研究环境中评估问题阐述、实验进展和结果综合。 这些工作将科学评估从静态答案转向基于环境的交互。在系统层面,诸如 The AI Scientist(lu2024ai)、AI Co-Scientist(gottweis2025towards)、AI-Researcher(tang2025ai)和 InternAgent-1.5(feng2026internagent15unifiedagenticframework)等努力展示了大语言模型智能体在自动论文生成、科学家参与式假设演化、长时域自主科学发现以及自主人工智能研究方面的潜力。 | 基准 | 基于真实论文 | 原始数据 | 可执行交互 | 端到端报告 | 广泛领域 | 开放研究范围 | |------|--------------|----------|--------------|--------------|------------|--------------| | ScienceWorld | × | × | ✓ | × | △ | × | | DiscoveryWorld | × | × | ✓ | × | △ | × | | SciCode | ✓ | ✓ | ✓ | × | △ | × | | ScienceAgentBench | ✓ | ✓ | ✓ | × | △ | × | | MLAgentBench | × | × | ✓ | ✓ | × | × | | MLE-bench | × | × | ✓ | ✓ | × | × | | PaperBench | ✓ | × | ✓ | ✓ | × | × | | CORE-Bench | ✓ | ✓ | ✓ | × | △ | × | | ReproduceBench | ✓ | × | ✓ | × | △ | × | | SGI-Bench | ✓ | ✓ | ✓ | ✓ | △ | △ | | AIRS-Bench | × | × | ✓ | ✓ | △ | ✓ | | MLR-Bench | × | × | ✓ | ✓ | △ | ✓ | | **ResearchClawBench (本文)** | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 表 1:ResearchClawBench 与现有科学或研究智能体基准的对比。我们比较了基于真实论文、原始数据、可执行交互、端到端报告、广泛领域以及开放研究范围等方面;领域列报告的是广泛学科领域的数量,而非任务主题或机器学习子领域。绿色 ✓ 表示是,黄色 △ 表示部分支持,红色 × 表示否。 这些工作与 RCBench 在评估端到端科学发现于真实研究环境中的动机是共通的,但仍存在重要差距。ScienceWorld 和 DiscoveryWorld 将真实任务抽象为模拟世界。SciCode、ScienceAgentBench 和 SciDataCopilot 更侧重于局部能力,如科学编码、数据分析或数据准备。MLE-bench、MLGym 和 MLAgentBench 集中在机器学习环境中,科学领域和证据类型有限。PaperBench、CORE-Bench 和 AutoReproduce/ReproduceBench 均聚焦于论文复现或计算可复现性,但其核心目标是在已给定或已暴露的论文和代码基础上进行复现。SGI-Bench、AIRS-Bench 和 MLR-Bench 针对科学家对齐的工作流、开放式人工智能研究或完整的研究生命周期,但其主要场景仍侧重工作流能力测量或人工智能/机器学习研究,在更广泛的自然科学任务、数据模态和证据标准方面仍有缺口。系统级智能体如 The AI Scientist、AI Co-Scientist、AI-Researcher 和 InternAgent-1.5 进一步凸显了对一个与系统无关的基准的需求,以比较不同的自主研究系统。 相反,RCBench 从高质量科学论文中构建真实研究任务,要求模型在隐藏目标论文的设置下进行重新发现,并直接评估端到端的自主科学发现,同时为未来在更广泛科学领域和数据类型上的发现导向研究保留空间。  图 1:ResearchClawBench 总体框架。真实论文、相关文献和原始数据被转化为可执行的研究任务包;智能体和 ResearchHarness 大语言模型与同一研究环境交互,其输出根据评分标准(关键科学成果及补充质量维度)进行评估。 ## 3 ResearchClawBench 我们介绍 ResearchClawBench。它具有三个核心特征。第一,任务源自科学工作,并提供参考文献和原始数据。第二,任务具有研究价值:我们优先选择问题明确、数据可获取且具有学术意义的工作。第三,该基准围绕隐藏的目标论文构建评分标准,将开放性输出转化为可验证的信号。 ### 3.1 任务组件 在 ResearchClawBench 中,一个任务表示为 τ=(q,L,D,p⋆,A),其中 q 是任务描述,L 是相关文献,D 是原始数据,p⋆ 是隐藏的目标论文,而 A 是围绕目标论文构建的评估成果。给定任务 τ 和可执行环境 E,系统需要生成 (π,o,r),其中 π 表示实验代码和执行过程,o 表示中间结果、图表和输出文件,r 表示最终的研究报告。该基准确定系统能否基于 (q,L,D) 生成高质量的研究产品,以及这些产品是否达到或超越目标论文 p⋆。一个具体任务及其主要组件如 表 2 (https://arxiv.org/html/2606.07591#S3.T2) 所示。 ### 3.2 数据构建 RCBench 并非设计仅仅“类似研究”的任务。相反,它尽可能保留真实科学任务的结构 (zhou2023webarena)。它基于高质量已发表的论文构建,但目标论文不暴露给评估系统,系统必须自主地根据任务描述、相关文献和原始数据进行重新发现。RCBench 目前包含 40 项任务,涵盖 10 个科学领域 (表 3 (https://arxiv.org/html/2606.07591#S3.T3))。 表 2:来自 Astronomy_000 的简化任务示例。详情见附录 B (https://arxiv.org/html/2606.07591#A2)。 | 任务 ID | 任务内容 | |---------|----------| | Astronomy_000 | 利用贝叶斯框架约束超轻玻色子质量和自相互作用耦合强度,将黑洞超辐射转化为关于完整质量/自旋后验的概率模型。 | | 输入数据 | 数据描述 | |----------|----------| | IRAS_09149-6206_samples.dat | 10,000 个后验样本,对应超大质量黑洞 IRAS 09149-6206;列为质量 M [M⊙] 和无量纲自旋 a*。 | | M33_X-7_samples.dat | 1,838 个后验样本,对应恒星质量黑洞 M33 X-7;列为质量 M 和无量纲自旋 a*。 | | 论文 | *Getting More Out of Black Ho
相似文章
ResearchClawBench:面向端到端自主科学研究的基准测试
ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。
AutoResearchClaw:自我强化的自主研究与人机协作
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。
@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。
通过基准构建教授AI:QuestBench作为负责任知识工作的课程实践
本文介绍了QuestBench,这是一个由学生构建的基准,用于评估人文和社会科学领域的深度研究系统。结果显示,即使是像GPT-5.5这样的先进系统也只能通过57.58%的问题,突显了可信度方面的失败。
ClawBench: AI代理能否完成日常在线任务?
ClawBench是一个评估AI代理在日常在线任务中表现的基准。此次V2更新带来了改进或新任务。