跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI 论文

摘要

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。

arXiv:2606.12736v1 公告类型:新 摘要:人工智能智能体正越来越多地被开发用于加速科学发现,但它们在真实研究环境中的实际能力仍然知之甚少。现有的AI智能体基准测试很少能捕捉到科学工作所需的复杂性、异质性和扩展推理,而针对科学任务的基准测试往往将研究简化为静态、直接的问题,并且对交互式评估的支持有限。在这里,我们介绍SciAgentArena,这是一个系统性的基准测试,用于评估AI智能体在来自多个领域新兴需求的真实世界科学研究场景中的表现。SciAgentArena包含大约200个任务,具有逐步验证和交互式、智能体无关的环境,用于评估各种AI智能体。使用该基准测试,我们发现当前的智能体可以有效地为明确指定的数据分析工作流程做出贡献,特别是在任务结构和评估标准明确的情况下。然而,它们的表现在科学背景下仍然不均衡:智能体在产生真正新颖的见解、维持自主探索以及为开放式研究问题制定稳健解决方案方面存在困难。我们进一步描述了常见故障模式,并指出了提高其可靠性、自主性和科学推理能力的机会。总之,SciAgentArena提供了一个实用的框架,用于衡量AI智能体在科学领域的进展,并指导设计未来能够应对复杂科学挑战的智能体。完整代码、任务和数据集可通过此链接访问:https://sciagentarena.github.io/。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:53

# 跨尺度科学挑战的AI智能体基准测试  
来源:https://arxiv.org/html/2606.12736  

\\svgsetup inkscapelatex=false\\pdftraileridredacted  
Tianyu Liu  
耶鲁大学,康涅狄格州,美国  
麻省理工与哈佛大学博德研究所,马萨诸塞州,美国  
这些作者对这项工作贡献相等,并共同主导了任务  
通讯作者:.  
Allen Xin Wang  
Antonia Panescu  
耶鲁大学,康涅狄格州,美国  
这些作者对这项工作贡献相等,并共同主导了任务  
Lisa Xinyi Chen  
耶鲁大学,康涅狄格州,美国  
这些作者对这项工作贡献相等,并共同主导了任务  
Wenxin Long  
宾夕法尼亚州立大学,宾夕法尼亚州,美国  
这些作者对这项工作贡献相等,并共同主导了任务  
Xinyu Wei  
耶鲁大学,康涅狄格州,美国  
这些作者对这项工作贡献相等,并共同主导了任务  
Yueqian Jing  
耶鲁大学,康涅狄格州,美国  
这些作者对这项工作贡献相等,并共同主导了任务  
Ziyao Zeng  
耶鲁大学,康涅狄格州,美国  
这些作者对这项工作贡献相等,并共同主导了任务  
Jihang Chen  
东北大学,马萨诸塞州,美国  
这些作者作为任务贡献者贡献相等  
Sihan Jiang  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Ziqing Wang  
西北大学,伊利诺伊州,美国  
这些作者作为任务贡献者贡献相等  
Siyi Gu  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Siyu Chen  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Xinyang Hu  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Haoran Shao  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Leqi Xu  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Wangjie Zheng  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Zhiyuan Cao  
耶鲁大学,康涅狄格州,美国  
这些作者作为任务贡献者贡献相等  
Ada Fang  
哈佛大学,马萨诸塞州,美国  
这些作者作为任务贡献者贡献相等  
Botao Yu  
俄亥俄州立大学,俄亥俄州,美国  
Kunyang Sun  
加州大学伯克利分校,加利福尼亚州,美国  
Rex Ying  
耶鲁大学,康涅狄格州,美国  
Arman Cohan  
耶鲁大学,康涅狄格州,美国  
Qingyu Chen  
耶鲁大学,康涅狄格州,美国  
通讯作者:.  
Lingzhou Xue  
宾夕法尼亚州立大学,宾夕法尼亚州,美国  
Kaize Ding  
西北大学,伊利诺伊州,美国  
Yuanqi Du  
微软研究院新英格兰,马萨诸塞州,美国  
Wengong Jin  
麻省理工与哈佛大学博德研究所,马萨诸塞州,美国  
东北大学,马萨诸塞州,美国  
Zhuoran Yang  
耶鲁大学,康涅狄格州,美国  
Marinka Zitnik  
哈佛大学,马萨诸塞州,美国  
James Zou  
斯坦福大学,加利福尼亚州,美国  
Hua Xu  
耶鲁大学,康涅狄格州,美国  
通讯作者:.  
Hongyu Zhao  
耶鲁大学,康涅狄格州,美国  
通讯作者:.  

###### 摘要  

AI智能体正被越来越多地开发以加速科学发现,然而它们在真实研究环境中的实际能力仍然知之甚少。现有的AI智能体基准测试很少能捕捉科学工作所需的复杂性、异质性和延展推理,而科学任务的基准测试则往往将研究简化为静态、直接的问题,对交互式评估的支持有限。在此,我们介绍SciAgentArena,一个系统性的基准测试,用于评估AI智能体在真实世界科学研究场景中的表现,这些场景源自多个领域的新兴需求。SciAgentArena包含约200个任务,具有逐步验证机制和交互式、智能体无关的环境,用于评估不同AI智能体。利用该基准测试,我们发现当前智能体在定义良好的数据分析流程中能够有效发挥作用,尤其是当任务结构和评估标准清晰时。然而,它们在不同科学背景下的表现仍然参差不齐:智能体在产生真正新颖的见解、维持自主探索以及为开放式研究问题制定稳健解决方案方面存在困难。我们进一步刻画了不同智能体的常见失败模式,并识别了改进其可靠性、自主性和科学推理能力的机会。总之,SciAgentArena为衡量科学领域AI智能体的进展以及指导设计能够应对复杂科学挑战的未来智能体提供了一个实用框架。完整代码、任务和数据集可通过此链接访问:https://sciagentarena.github.io/。  

## 1 引言  

AI智能体基于大型语言模型(LLMs)[zhao2023survey],但借助工具调用、反应和记忆等特殊能力,已经在解决复杂现实问题方面做出了贡献[gridach2025agentic]。AI智能体已展示出在多种科学研究相关任务中的潜力,包括但不限于撰写文献综述[agarwal2024llms]、规划实验方案[huang2025biomni]以及设计新型物质[du2025accelerating]等。这些任务层面的创新催生了一系列基于AI智能体的技术工具,例如DeepResearch[zhang2025deep, deepresearch2026]、Co-Scientist[gottweis2025towards]、AI Scientist[lu2026towards]等。这些相关手稿和/或技术报告中呈现的结果一致增强了我们对科学领域AI智能体未来的信心。然而,鉴于该领域的快速进展,我们面临理解其实际用途并跟上发展阶段步伐的挑战。同时,我们必须谨慎考虑AI智能体设计的严谨性,特别是在将AI智能体应用于涉及化学、医疗保健和生命科学的科学研究时。这引出了三个核心问题:当前AI智能体在真实科学任务上的能力如何?它们在异质研究环境中的可靠性如何?需要什么样的基准设计才能公平地比较它们?不幸的是,这些问题的答案无法通过综合现有研究结果得出,而评估方法在AI驱动的端到端科学研究中已落后于现实[zhao2025sciarena, song2025evaluating]。  

第一个差距,如图1(https://arxiv.org/html/2606.12736#S1.F1)(a)所示,源于当前AI智能体基准研究的不足。这些方法要么选择不同的LLM并搭配固定的工具或数据集,以考察LLM在特定任务上的表现[shen2026sciagentgym, chenscienceagentbench, sun2026dsaeval, liu2025towards];要么基于科学研究之外的任务/数据集设计游乐场或基准测试环境[nathani2025mlgym, bragg2025astabench]。前者只能评估LLM的能力,而后者更侧重于评估数学技能、逻辑推理和编程能力(例如AIME[balunovic2025matharena]、Folio[han2024folio]、SciCode[tian2024scicode]和SWE-bench[jimenez2024swe]),这些与科学问题的应用场景不同。所选的AI智能体大多也并非为应对科学挑战而设计,因此该领域需要进一步研究。  

第二个差距,如图1(https://arxiv.org/html/2606.12736#S1.F1)(b)所示,源于科学研究中设计的基准任务的局限性。当前方法旨在评估LLM或AI智能体能否推动科学进步,主要侧重于问答/机器学习编码场景,这相当于简化版(例如GPQA[rein2024gpqa]、ScienceQA[saikh2022scienceqa]和BioML-bench[miller2025bioml])。这些问题并非评估AI智能体能力的合适集合。此外,大多数科学基准只关注单一、狭窄的领域或模态[bragg2025astabench, mitchener2025bixbench, luo2025benchmarking, nair2026agentic, merrill2026terminal](例如计算生物学和计算机科学),忽略了对整个科学领域及其联系的全面理解和评估。同时,许多当前基准缺乏对问题难度的明确定义(GPT 5.2[openaigpt522025]在AIME基准上已达到100%准确率,因此我们需要更难的样本)以及其他关键属性,这些在补充表3(https://arxiv.org/html/2606.12736#A2.T3)中有进一步讨论。这些是衡量基准设置是否全面、是否适合评估AI智能体在处理核心科学任务方面的能力的关键指标。  

因此,我们需要一个新的基准,能够在具有挑战性、实用性和科学扎实性的问题上评估AI智能体,强调多步骤工作流、可验证的中间状态、工具使用和环境交互,而非简单的最终成功率。这样的基准应涵盖不同领域和难度级别,考虑效率和成本,并衡量智能体在帮助未来AI智能体设计时是否能够胜任、适应、可靠且负责任地行动。  

在此,我们介绍SciAgentArena,这是首个基于跨领域新兴且重要的科学需求的真实研究场景,对AI智能体进行系统评估的基准。我们涵盖五个关键领域,包括单细胞组学[wang2010single]、空间组学[bressan2023dawn]、计算药物发现[blanco2023role]、电子健康记录(EHR)建模[knevel2023real]和遗传学[zhao2026engineering]。这些领域的挑战呈现不同规模,需要不同的能力来应对。更重要的是,这些领域汇集了科学研究问题的各个阶段:从识别问题和收集数据,到了解疾病和开发相关疗法,再到探索涵盖分子、细胞、组织水平直至人体的生物医学发现,如图2(https://arxiv.org/html/2606.12736#S1.F2)(a)所示。来自三个领域的选定任务如图1(https://arxiv.org/html/2606.12736#S1.F1)(c)所示,展示了科学研究中的实际和复杂需求。我们的任务还包括衡量AI智能体判断任务是否可行(有效性检查)的能力,并且具有不同难度级别,使其与真实场景高度相关。  

最后,在系统设计方面,为了解决不同AI智能体配置带来的冲突,并使我们的框架能够评估更广泛的AI智能体的问题解决能力,我们将运行框架与评估框架分离,如图1(https://arxiv.org/html/2606.12736#S1.F1)(d)所示。我们为不同AI智能体配置专用环境。一旦获得输出(数据或代码),在统一输入/输出设置后,将其发送到评估环境以生成最终指标。这种分离设计解决了AI智能体之间的冲突,并提高了评估效率。通过该系统,我们还可以评估除精确度之外的不同方面,包括稳定性、可靠性、成本等。我们还支持大型社区提交智能体/任务/评估指标的平台,以构建一个活基准平台,并为未来AI智能体设计做出贡献(查看图2(https://arxiv.org/html/2606.12736#S1.F2)(b)以进入网站,图2(https://arxiv.org/html/2606.12736#S1.F2)(c)为任务提交详情)。  

我们的研究在回答预先定义的四个问题方面做出了努力,并从几个方面揭示了AI智能体在解决科学相关问题时的独特倾向:首先,没有单一AI智能体能在所有任务上占据主导地位,这表明我们基准的难度以及进一步提高AI智能体在科学研究中泛化能力的必要性,如图1(https://arxiv.org/html/2606.12736#S1.F1)(e)所示。它们是不均衡的协作者。其次,AI智能体在数据加载与分析、优化和发现方面的贡献是异质的。AI智能体擅长使用固定流程分析数据集,但它们在优化分子和算法以及得出新颖科学发现方面的能力有限。第三,通过总结不同智能体的运行结果,我们还识别出被动的自我探索、方法选择的趋同以及共同的错误模式。一些AI智能体在生物医学任务中也不稳定,并且在未经验证的情况下表现出奉承行为。这些问题阻碍了研究人员高效可靠地使用这些AI智能体。最后,针对这些已识别的问题,我们提出了增强AI智能体解决具有挑战性科学问题能力的解决方案,例如扩展知识库、提供更详细的提示以及其他建议。  

参见图注  
图1:SciAgentArena概览。(a) 当前AI智能体基准的局限性。(b) 当前科学基准的局限性。(c) 作为示例从我们的基准中选取的任务。(d) 运行时间和评估框架,以及不同类别任务的比例。(e) GPT 5.2产生的AIME分数与领域最佳智能体产生的SciAgentArena分数之间的比较。  

参见图注  
图2:关键AI智能体能力和基准平台开发。(a) 本版本评估的科学挑战类别。(b) 我们交互式基准平台的入口。(c) 解决方案提交和自动评估系统。  

## 2 结果  

### 2.1 基准概览  

我们的AI智能体基准研究涵盖了来自五个不同领域(药物发现、单细胞组学、空间组学、EHR建模和遗传学)的挑战。尽管这些领域涉及不同的数据模态、科学目标和技术约束,但AI智能体面临的潜在挑战可以归纳为四个核心类别:数据分析、优化、发现和有效性。这些类别反映了科学研究中所需的主要推理、规划和行动形式:分析复杂数据、改进候选方案、生成新的科学假设,以及判断提出的任务在科学和技术上是否可行。数据分析问题要求AI智能体逐步解决数据分析问题,以评估其解决长视野问题的能力;优化问题要求AI智能体为提出的目标优化解决方案,可以选择方法或设计解决方案;发现问题要求AI智能体探索研究领域并提出新的假说和想法;有效性则检查AI智能体检测所提出任务是否可运行的能力。这些任务由领域专家设计,并且在特定领域中具有重要性。  

关于AI智能体的选择,我们涵盖了18个AI智能体(包括通用型和专业型智能体,以及三个多模态LLM),具有不同的设计原则:GPT 5.2[openaigpt522025]、Gemini 3 Pro[gemini3prosystem2025]、Claude Sonnet 4.6[anthropicclaudesonnet2025]、ToolUniverse[gao2025democratizing]、Codex[openai\_codex\_chatgpt\_2026]、ClaudeCode[anthropic\_claude\_code\_overview\_2026]、CellForge[tang2025cellforge]、STELLA[jin2025stella]、AutoBA[autoba2024]、Biomni[huang2025biomni]、TxAgent[gao2025txagentaiagenttherapeutic]、Medea[sui2026medea]、CACTUS[mcnaughton2024cactus]、ChemToolAgent[yu-etal-2025-tooling]、DrugAgent[liu2025drugagentautomatingaiaideddrug]、LIDDiA[averly-etal-2025-liddia]、DELTA[unlu2025auditableagentplatformautomated]和MRagent[mragentperform]。我们还在其最大功能下使用最合适的骨干LLM运行实验,以进行公平比较。我们在附录A(https://arxiv.or)中讨论了AI智能体的能力并进行了比较。

相似文章

利用开放环境中AI代理的集体智慧实现新发现

arXiv cs.CL

本文介绍了EinsteinArena,一个代理原生平台,通过自主AI代理之间的开放交互,实现去中心化的科学发现。该平台已经产生了12项新的最先进成果,包括改进了11维接吻数问题的最佳已知下界,从593提高到604,这表明集体AI驱动的研究可以源自代理之间分享见解并相互借鉴。

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。