ResearchClawBench：面向端到端自主科学研究的基准测试

Hugging Face Daily Papers 2026/05/28 00:00 论文

benchmark autonomous-research scientific-research ai-agents evaluation llms

摘要

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试，涵盖来自10个领域的40个任务，结果显示当前AI智能体和LLM的重新发现准确率较低，其中Claude Code平均得分为21.5，Claude-Opus-4.7平均得分为20.7（在可能的总分中）。

AI编程智能体越来越多地被用于科学工作，但其端到端的自主研究能力仍然难以验证。我们提出了ResearchClawBench，这是一个用于评估自主科学研究的基准测试，涵盖来自10个科学领域的40个任务。每个任务基于一篇真实发表论文，提供相关文献和原始数据，并在评估过程中隐藏目标论文。专家策划的多模态评分标准将目标科学制品分解为加权标准，从而能够评估目标论文级别的重新发现，同时为新的发现留出空间。我们在统一协议下评估了七个自主研究（auto-research）智能体，并通过轻量级ResearchHarness评估了十七个原生LLM。当前系统远未达到可靠的重新发现水平：最强的自主智能体Claude Code平均得分为21.5，最强的ResearchHarness LLM Claude-Opus-4.7平均得分为20.7，而LLM前沿均值仅为26.5。错误分析表明，失败主要集中在实验协议不匹配、证据不匹配以及缺少科学核心。ResearchClawBench为衡量自主科学研究进展提供了一个可复现的评估前沿。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:44

论文页面 - ResearchClawBench: 端到端自主科学研究的基准测试

来源: https://huggingface.co/papers/2606.07591 发布于5月28日

#2 今日论文 (https://huggingface.co/papers/date/2026-06-08) 作者: ,

摘要

ResearchClawBench 通过专家精心设计的评估标准，从10个领域的40个任务中评估自主科学研究能力，并揭示了当前AI智能体和大语言模型在再发现准确性上的局限性。

AI编码智能体越来越多地被用于科学工作，但其端到端自主研究（https://huggingface.co/papers?q=autonomous%20research）能力仍然难以验证。我们提出 ResearchClawBench，这是一个从10个科学领域的40个任务中评估自主科学研究（https://huggingface.co/papers?q=scientific%20research）的基准测试。每个任务都基于一篇已发表的真实论文，提供相关文献和原始数据，并在评估过程中隐藏目标论文。专家精心设计的多模态评分标准（https://huggingface.co/papers?q=multimodal%20rubrics）将目标科学成果分解为加权指标，从而能够评估目标论文级别的再发现（https://huggingface.co/papers?q=re-discovery），同时为新的发现留下空间。我们通过统一协议评估了七个自主研究（auto-research）智能体，并通过轻量级 ResearchHarness 评估了十七个原生大语言模型。当前系统距离可靠的再发现（https://huggingface.co/papers?q=re-discovery）仍相差甚远：最强的自主智能体 Claude Code 平均得分为21.5，最强的 ResearchHarness 大语言模型 Claude-Opus-4.7 平均得分为20.7，而大语言模型前沿平均得分仅为26.5。错误分析（https://huggingface.co/papers?q=Error%20analysis）表明，失败主要集中在实验协议不匹配（https://huggingface.co/papers?q=experimental%20protocol%20mismatch）、证据不匹配（https://huggingface.co/papers?q=evidence%20mismatch）以及缺少科学核心（https://huggingface.co/papers?q=scientific%20core）。ResearchClawBench 提供了一个可复现的评估前沿，用于衡量向自主科学研究（https://huggingface.co/papers?q=scientific%20research）迈进的进展。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07591)查看 PDF (https://arxiv.org/pdf/2606.07591)项目页面 (https://internscience.github.io/ResearchClawBench-Home/)GitHub131 (https://github.com/InternScience/ResearchClawBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07591)

在你的智能体中获取这篇论文：

hf papers read 2606\.07591

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有链接该论文的模型

在模型 README.md 中引用 arxiv.org/abs/2606.07591 即可从此页面链接。

ResearchClawBench：面向端到端自主科学研究的基准测试

论文页面 - ResearchClawBench: 端到端自主科学研究的基准测试

摘要

引用该论文的模型0

引用该论文的数据集1

InternScience/ResearchClawBench Benchmark• 更新于约7小时前 • 56 • 4.48k • 5 (https://huggingface.co/datasets/InternScience/ResearchClawBench)

引用该论文的 Spaces1

包含该论文的合集3

相似文章

ResearchClawBench：面向端到端自主科学研究的标准基准

AutoResearchClaw：自我强化的自主研究与人机协作

PaperBench：评估AI复现AI研究的能力

WildClawBench：真实世界长周期智能体评估基准

ClawBench: AI代理能否完成日常在线任务？

提交意见反馈