ResearchClawBench:面向端到端自主科学研究的基准测试

Hugging Face Daily Papers 论文

摘要

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。

AI编程智能体越来越多地被用于科学工作,但其端到端的自主研究能力仍然难以验证。我们提出了ResearchClawBench,这是一个用于评估自主科学研究的基准测试,涵盖来自10个科学领域的40个任务。每个任务基于一篇真实发表论文,提供相关文献和原始数据,并在评估过程中隐藏目标论文。专家策划的多模态评分标准将目标科学制品分解为加权标准,从而能够评估目标论文级别的重新发现,同时为新的发现留出空间。我们在统一协议下评估了七个自主研究(auto-research)智能体,并通过轻量级ResearchHarness评估了十七个原生LLM。当前系统远未达到可靠的重新发现水平:最强的自主智能体Claude Code平均得分为21.5,最强的ResearchHarness LLM Claude-Opus-4.7平均得分为20.7,而LLM前沿均值仅为26.5。错误分析表明,失败主要集中在实验协议不匹配、证据不匹配以及缺少科学核心。ResearchClawBench为衡量自主科学研究进展提供了一个可复现的评估前沿。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:44

论文页面 - ResearchClawBench: 端到端自主科学研究的基准测试

来源: https://huggingface.co/papers/2606.07591 发布于5月28日

#2 今日论文 (https://huggingface.co/papers/date/2026-06-08) 作者: ,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

ResearchClawBench 通过专家精心设计的评估标准,从10个领域的40个任务中评估自主科学研究能力,并揭示了当前AI智能体和大语言模型在再发现准确性上的局限性。

AI编码智能体越来越多地被用于科学工作,但其端到端自主研究(https://huggingface.co/papers?q=autonomous%20research)能力仍然难以验证。我们提出 ResearchClawBench,这是一个从10个科学领域的40个任务中评估自主科学研究(https://huggingface.co/papers?q=scientific%20research)的基准测试。每个任务都基于一篇已发表的真实论文,提供相关文献和原始数据,并在评估过程中隐藏目标论文。专家精心设计的多模态评分标准(https://huggingface.co/papers?q=multimodal%20rubrics)将目标科学成果分解为加权指标,从而能够评估目标论文级别的再发现(https://huggingface.co/papers?q=re-discovery),同时为新的发现留下空间。我们通过统一协议评估了七个自主研究(auto-research)智能体,并通过轻量级 ResearchHarness 评估了十七个原生大语言模型。当前系统距离可靠的再发现(https://huggingface.co/papers?q=re-discovery)仍相差甚远:最强的自主智能体 Claude Code 平均得分为21.5,最强的 ResearchHarness 大语言模型 Claude-Opus-4.7 平均得分为20.7,而大语言模型前沿平均得分仅为26.5。错误分析(https://huggingface.co/papers?q=Error%20analysis)表明,失败主要集中在实验协议不匹配(https://huggingface.co/papers?q=experimental%20protocol%20mismatch)、证据不匹配(https://huggingface.co/papers?q=evidence%20mismatch)以及缺少科学核心(https://huggingface.co/papers?q=scientific%20core)。ResearchClawBench 提供了一个可复现的评估前沿,用于衡量向自主科学研究(https://huggingface.co/papers?q=scientific%20research)迈进的进展。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07591)查看 PDF (https://arxiv.org/pdf/2606.07591)项目页面 (https://internscience.github.io/ResearchClawBench-Home/)GitHub131 (https://github.com/InternScience/ResearchClawBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07591)

在你的智能体中获取这篇论文:

hf papers read 2606\.07591

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有链接该论文的模型

在模型 README.md 中引用 arxiv.org/abs/2606.07591 即可从此页面链接。

引用该论文的数据集1

InternScience/ResearchClawBench Benchmark• 更新于约7小时前 • 56 • 4.48k • 5 (https://huggingface.co/datasets/InternScience/ResearchClawBench)

引用该论文的 Spaces1

包含该论文的合集3

相似文章

PaperBench:评估AI复现AI研究的能力

OpenAI Blog

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。