ResearchClawBench:面向端到端自主科学研究的基准测试
摘要
ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。
查看缓存全文
缓存时间: 2026/06/09 08:44
论文页面 - ResearchClawBench: 端到端自主科学研究的基准测试
来源: https://huggingface.co/papers/2606.07591 发布于5月28日
#2 今日论文 (https://huggingface.co/papers/date/2026-06-08) 作者: ,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
ResearchClawBench 通过专家精心设计的评估标准,从10个领域的40个任务中评估自主科学研究能力,并揭示了当前AI智能体和大语言模型在再发现准确性上的局限性。
AI编码智能体越来越多地被用于科学工作,但其端到端自主研究(https://huggingface.co/papers?q=autonomous%20research)能力仍然难以验证。我们提出 ResearchClawBench,这是一个从10个科学领域的40个任务中评估自主科学研究(https://huggingface.co/papers?q=scientific%20research)的基准测试。每个任务都基于一篇已发表的真实论文,提供相关文献和原始数据,并在评估过程中隐藏目标论文。专家精心设计的多模态评分标准(https://huggingface.co/papers?q=multimodal%20rubrics)将目标科学成果分解为加权指标,从而能够评估目标论文级别的再发现(https://huggingface.co/papers?q=re-discovery),同时为新的发现留下空间。我们通过统一协议评估了七个自主研究(auto-research)智能体,并通过轻量级 ResearchHarness 评估了十七个原生大语言模型。当前系统距离可靠的再发现(https://huggingface.co/papers?q=re-discovery)仍相差甚远:最强的自主智能体 Claude Code 平均得分为21.5,最强的 ResearchHarness 大语言模型 Claude-Opus-4.7 平均得分为20.7,而大语言模型前沿平均得分仅为26.5。错误分析(https://huggingface.co/papers?q=Error%20analysis)表明,失败主要集中在实验协议不匹配(https://huggingface.co/papers?q=experimental%20protocol%20mismatch)、证据不匹配(https://huggingface.co/papers?q=evidence%20mismatch)以及缺少科学核心(https://huggingface.co/papers?q=scientific%20core)。ResearchClawBench 提供了一个可复现的评估前沿,用于衡量向自主科学研究(https://huggingface.co/papers?q=scientific%20research)迈进的进展。
查看 arXiv 页面 (https://arxiv.org/abs/2606.07591)查看 PDF (https://arxiv.org/pdf/2606.07591)项目页面 (https://internscience.github.io/ResearchClawBench-Home/)GitHub131 (https://github.com/InternScience/ResearchClawBench)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07591)
在你的智能体中获取这篇论文:
hf papers read 2606\.07591
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有链接该论文的模型
在模型 README.md 中引用 arxiv.org/abs/2606.07591 即可从此页面链接。
引用该论文的数据集1
InternScience/ResearchClawBench Benchmark• 更新于约7小时前 • 56 • 4.48k • 5 (https://huggingface.co/datasets/InternScience/ResearchClawBench)
引用该论文的 Spaces1
包含该论文的合集3
相似文章
ResearchClawBench:面向端到端自主科学研究的标准基准
ResearchClawBench是一个评估端到端自主科学研究的基准,涵盖10个领域的40个任务,采用专家精心设计的评分标准。当前系统得分较低,凸显了实现可靠自主科学发现的挑战。
AutoResearchClaw:自我强化的自主研究与人机协作
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。
PaperBench:评估AI复现AI研究的能力
OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
ClawBench: AI代理能否完成日常在线任务?
ClawBench是一个评估AI代理在日常在线任务中表现的基准。此次V2更新带来了改进或新任务。