扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集
摘要
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
查看缓存全文
缓存时间: 2026/06/08 09:15
# 像真正的研究员一样行动:一套评估前沿大语言模型及智能体框架在研究生命周期表现的基准套件 来源:https://arxiv.org/html/2606.07462 汪嘉宇¹,*, 吕韦江²,*, 傅博文¹,*, 傅静¹, 宋嘉怡¹, 张玲玉¹, 薛澜轩¹, 陈洛迪¹, 辛泽鹏¹, 李凯宇¹,†, 曹向阳¹,† ¹西安交通大学²西安电子科技大学 ###### 摘要 随着基础模型的进步和智能体框架的日益复杂,智能体在复杂的长期编码任务乃至自主实验执行方面展现出了卓越的能力。尽管它们已从研究助手演变为自主研究智能体,但这些系统在现场敏感性、研究伦理和细致的科学判断方面仍存在显著局限。因此,前沿智能体仍无法完全取代人类研究者。为弥补这一差距,我们提出了AARR(Act As a Real Researcher,像真正的研究员一样行动)基准系列。与主要评估宏观执行能力的现有基准不同,AARR关注的是智能体能否在细粒度研究场景中模仿人类研究员的专业性、严谨性和细致推理。在本工作中,我们提出了AARRI-Bench(Act As a Real Research Intern,像真正的研究实习生一样行动),这是该系列中的第一个基准。我们在前沿模型和智能体系统上进行了广泛实验,揭示出即使是表现最佳的系统配置(Mini-SWE-Agent与Claude Opus 4.7)也仅达到68.3%的成功率,并且经常忽略对真正人类研究员而言显而易见的微妙但关键细节。我们的结果表明,开发具备研究员特质的AI需要进一步探索研究行为,而非仅仅依赖复杂的框架。我们的数据集已发布于https://github.com/AARR-bench/AARRI-bench。 # 像真正的研究员一样行动:一套评估前沿大语言模型及智能体框架在研究生命周期表现的基准套件 汪嘉宇¹,*, 吕韦江²,*, 傅博文¹,*, 傅静¹, 宋嘉怡¹, 张玲玉¹, 薛澜轩¹, 陈洛迪¹, 辛泽鹏¹, 李凯宇¹,†, 曹向阳¹,† ¹西安交通大学²西安电子科技大学 ¹∗: 同等贡献 ²†: 通讯作者 ## 1 引言 大语言模型(LLM)的快速发展催生了能力日益强大的智能体系统,它们能够在最少人工干预下自主执行长期任务。近期的智能体LLM在软件工程、环境交互、持续执行和迭代自我改进方面展现了强大能力(Yao 等, 2022 (https://arxiv.org/html/2606.07462#bib.bib2); Wang 等, 2024 (https://arxiv.org/html/2606.07462#bib.bib1))。例如,大规模多智能体系统已通过扩展的自主协作成功生成了生产级编译器,而持久化智能体框架则实现了带有自动上下文管理和状态恢复的长期运行执行(Yang 等, 2024a (https://arxiv.org/html/2606.07462#bib.bib3); Hassan 等, 2024 (https://arxiv.org/html/2606.07462#bib.bib5); Wang 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib4))。关于智能体自我进化的近期研究进一步表明,智能体可以通过运行时反馈和优化不断迭代地改进自身的推理策略和框架(Wang 等, 2023 (https://arxiv.org/html/2606.07462#bib.bib6); Sun 等, 2023 (https://arxiv.org/html/2606.07462#bib.bib7); Shinn 等, 2023 (https://arxiv.org/html/2606.07462#bib.bib8); Zhao 等, 2024 (https://arxiv.org/html/2606.07462#bib.bib9); Fang 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib10))。除了一般性自主任务执行,自动化科学研究已成为智能体LLM系统一个日益活跃的方向。近期研究智能体探索了科学工作流程的多个阶段,包括迭代模型优化、实验执行、文献分析和自动论文撰写(Lu 等, 2024 (https://arxiv.org/html/2606.07462#bib.bib12); Yamada 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib17); Liu 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib11); Yang 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib13); Schmidgall 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib14); Jiang 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib15); Tang 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib16))。一些系统旨在通过多智能体协作和自动化实验来支持端到端的研究流程(Gottweis 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib18); Lyu 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib19); Liu 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib11)),而另一些则专注于将持久的工具使用和模块化研究技能集成到交互式研究助手中(Han 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib21); Zhou 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib20))。为评估这些快速发展的研究系统,已引入多个研究专用基准,用于评估智能体在科学研究场景中的能力,涵盖实验复现、研究代码实现、科学推理、想法生成和端到端研究执行等任务(Starace 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib27); Wu 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib29); Hua 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib25))。这些基准极大地推动了自主研究智能体的评估,并为其执行、编码和推理能力提供了宝贵见解。然而,在评估智能体是否能够像真正的研究员一样行为时,现有基准仍存在两个主要局限: (1)**缺乏面向研究员特质的任务**:现有基准主要衡量任务完成度和最终结果,而忽视了重要的研究员特质,如诚信、不确定性意识、谨慎验证和负责任的科学推理。 (2)**对人类-智能体差异的认识有限**:大多数现有基准侧重于让智能体解决对人类而言困难的问题。极少有人将“对人类容易但智能体很可能出错的任务”作为基准构建的关键设计原则。 与代表性的先前基准相比,AARRI-Bench 独特地结合了端到端研究评估、细粒度评估、面向研究员特质的任务设计、人工数据构建以及对多框架评估的支持。 表1: 相关AI研究基准的比较。AARRI-Bench 同时支持端到端研究评估、细粒度研究过程评估、研究员特质和多框架评估。 | 基准名称 | 端到端任务 | 细粒度评估 | 研究员特质评估 | 数据生成 | 多框架评估 | #任务 | | --- | --- | --- | --- | --- | --- | --- | | MLE-Bench (Chan 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib22)) | ✗ | ✓ | ✗ | 迁移&组合 | ✓ | 75 | | MLGym-Bench (Nathaniel 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib23)) | ✗ | ✓ | ✗ | 自动 | ✗ | 13 | | EXP-Bench (Kon 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib24)) | ✓ | ✗ | ✗ | 自动 | ✓ | 461 | | ResearchCodeBench (Hua 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib25)) | ✗ | ✓ | ✗ | 迁移&组合 | ✗ | 212 | | MLR-Bench (Chen 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib26)) | ✓ | ✗ | ✗ | 自动 | ✓ | 201 | | PaperBench (Starace 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib27)) | ✗ | ✓ | ✗ | 迁移&组合 | ✗ | 8316 | | AstaBench (Bragge 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib28)) | ✓ | ✓ | ✗ | 迁移&组合 | ✓ | 2400+ | | InnovatorBench (Wu 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib29)) | ✓ | ✗ | ✗ | 迁移&组合 | ✗ | 20 | | AIRS-Bench (Lupidi 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib30)) | ✗ | ✓ | ✗ | 自动 | ✓ | 20 | | COMPOSITE-Stem (Waters 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib31)) | ✓ | ✓ | ✗ | 人工 | ✗ | 70 | | ScienceBoard (Sun 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib32)) | ✗ | ✓ | ✗ | 人工 | ✗ | 169 | | \rowcolortabhighlight AARRI-Bench (Ours) | ✓ | ✓ | ✓ | 人工 | ✓ | 82 | 在本文中,我们提出了AARR(Act As a Real Researcher,像真正的研究员一样行动)基准系列,这是一个全面的套件,旨在评估LLM智能体是否能够模仿真实研究员在研究生命周期各个阶段的行为。我们对这个系列的愿景包括三个递进阶段: - **AARRI(Act As a Real Research Intern,像真正的研究实习生一样行动)**:本系列的第一个基准,本文公开发布,重点关注评估智能体以适当的勤奋和方法论执行入门级研究任务的能力。与其他相关基准的比较已在表1 (https://arxiv.org/html/2606.07462#S1.T1)中展示。 - **AARRA(Act As a Real Research Assistant,像真正的研究助理一样行动)**:第二阶段,评估智能体进行更独立的研究贡献和批判性评价的能力。 - **AARRS(Act As a Real Research Scientist,像真正的研究科学家一样行动)**:最终阶段,衡量智能体在最少监督下进行独立研究和探索科学发现的准备程度。 本文做出以下贡献: - •我们提出了AARR基准系列,一个用于评估LLM智能体在真实研究场景中能力的新框架。 - •我们提出了AARRI-Bench,该系列中的首个基准,包含模拟真实研究实习生活动的任务。 - •我们在前沿模型和智能体系统上进行了广泛实验,提供了对其当前能力和局限性的全面分析。 ## 2 相关工作 ### 2.1 智能体LLM与框架和脚手架 LLM的最新进展使智能体系统具备了自主推理、工具调用、记忆管理和环境交互的能力(Yao 等, 2022 (https://arxiv.org/html/2606.07462#bib.bib2); Wang 等, 2023 (https://arxiv.org/html/2606.07462#bib.bib6); Huang 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib34))。关于思维链提示的早期工作(Wei 等, 2022 (https://arxiv.org/html/2606.07462#bib.bib33))进一步激发了用于长期任务执行的智能体框架的出现。近期的系统如 Claude Code 和 OpenCode 不仅在软件工程环境中展示了持续的自主执行能力,而且还能在通用场景中运行。除了模型能力的进步,框架和脚手架设计对于可靠地执行智能体任务变得越来越重要。现代智能体系统通常包含工具编排、持久化记忆、环境沙箱化和自动反馈机制(Ning 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib35); Lin 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib36))。这些技术在实现稳定的长期自主行为中起着关键作用。 ### 2.2 自主研究 智能体LLM的最新进展激发了人们对自主研究系统的日益增长的兴趣,其中智能体被设计用于迭代地执行科学工作流程(Lu 等, 2024 (https://arxiv.org/html/2606.07462#bib.bib12); Yamada 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib17); Gottweis 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib18))。Andrej Karpathy 的 autoresearch(Andrej Karpathy, 2026 (https://arxiv.org/html/2606.07462#bib.bib51))表明,一个轻量级的智能体循环可以自主修改代码、执行训练实验并迭代地保留改进结果。随后,AutoResearchClaw(Liu 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib11))引入了带有结构化辩论和自我修复执行的自我强化多智能体研究流程,而 EvoScientist(Lyu 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib19))则采用多智能体协作实现端到端的科学发现。其他系统如 Deep Researcher Agent(Zheng 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib37))专注于通过高效监控和记忆管理实现持续的自主实验。这些工作共同凸显了自主、长期由AI驱动的科学研究的日益可行性。 ### 2.3 智能体基准和评估 为评估通用智能体能力,涌现了多样化的基准生态系统。SWE-bench(Yang 等, 2024a (https://arxiv.org/html/2606.07462#bib.bib3))通过让智能体解决实际的GitHub问题来评估软件工程任务;Terminal-Bench(Merrill 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib38))衡量受限环境中的命令行操作;WebArena(Zhou 等, 2024 (https://arxiv.org/html/2606.07462#bib.bib39))评估端到端的网页导航和工具使用。这些基准主要关注任务完成率和执行正确性,提供了有价值但粗粒度的智能体熟练程度信号。最近,研究专用基准将注意力转向了科学工作流程。EXP-Bench(Kon 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib24))和 AIRS-Bench(Lupidi 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib30))评估实验复现和完整研究生命周期;ResearchCodeBench(Hua 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib25))和 AstaBench(Bragge 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib28))测试代码实现和跨领域科学发现;而 COMPOSITE-Stem(Waters 等, 2026 (https://arxiv.org/html/2606.07462#bib.bib31))、ScienceBoard(Sun 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib32))和 InnovatorBench(Wu 等, 2025 (https://arxiv.org/html/2606.07462#bib.bib29))则针对专家级推理和端到端研究创新。尽管取得了这些进展,现有基准仍然强调技术执行而非研究员特质;方法论严谨性、不确定性意识和负责任的科学判断等关键方面大多未被衡量。这一差距激发了我们的工作。 ## 3 AARRI-Bench AARRI-Bench 是AARR系列的第一个工作。图1 (https://arxiv.org/html/2606.07462#S3.F1)展示了AARRI-Bench流程的概览。它旨在揭示AI智能体与真实世界研究实习生之间的差距。该基准中的任务涵盖AI研究中的各种日常场景,重点关注对人类研究员来说直接但对自主智能体构成重大挑战的任务。AARRI-Bench中的任务由研究人员系统设计并手动构建,确保它们反映了实践中遇到的真实痛点。所有任务沿着两个正交维度进行分类,以确保全面评估。AARRI-Bench的评估建立在Harbor框架之上,该框架标准化了每个任务的格式,并提供了干净、容器化的环境。AARRI-Bench使得同时评估底层模型和智能体框架成为可能。 ### 3.1 数据分类法 为确保对研究智能体能力空间的全面覆盖,我们沿着两个正交维度对所有任务进行分类:**水平**(任务场景)和**垂直**(智能体范围)。 图1: AARRI-Bench流程概览。该基准通过三阶段人机协同工作流程构建,同时具有跨任务场景和智能体范围级别的二维任务分类。任务在Harbor框架下评估,包含标准化环境、多个智能体框架和模型,以及粗粒度和细粒度指标。 图2: 不同类型任务的比例。内环为d
相似文章
ForeSci:评估LLM代理的前瞻性AI研究判断
介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估
RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。
AutoLLMResearch:通过从低成本学习来优化高成本,训练研究智能体以自动化大型语言模型实验配置
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
ResearchClawBench:面向端到端自主科学研究的基准测试
ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。