AutoResearch AI:迈向人工智能驱动的研究自动化以实现科学发现
摘要
本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。
arXiv:2605.23204v1 公告类型:新
摘要:科学研究正被AI系统重塑,这些系统从孤立的任务辅助转向更长周期的工作流,涵盖文献依据、假设生成、实验、验证、报告和修订。这一转变标志着从任务级AI用于科学到工作流级研究自动化的过渡。然而,当前系统仍然是碎片化的,在自主性、领域范围、执行环境、验证机制和人类监督方面存在差异,同时在证据保存、可重复性、弱方向拒绝、溯源追踪、跨领域鲁棒性和负责任的科学终结方面仍面临困难。本综述通过AutoResearch(定义为AI驱动的科学工作流自动化的发展谱系)审视这些发展。其中,Vibe Research表示人类引导的基于提示的辅助和人工验证执行的区域,而新兴的AI主导系统协调更大的发现循环,但尚未实现强健的自主性。我们分析研究系统如何在工作流中重新分配控制、证据、执行、验证和问责,并围绕五个工作流条件组织该领域:文献和研究依据;假设形成与规划;实验与工具使用;反馈、验证与评审;报告与知识传播。我们还综合了AI科学家系统、混合主动协同研究框架、基准测试、领域部署和开源基础设施。最后,我们提出五个评估维度——新颖性、有效性、影响力、可靠性和溯源——并表明AutoResearch的自主性是领域条件化的,在结构化、可执行且可快速验证的设置中更可信,但在具体化、延迟、异质、伦理或机构问责的背景下则受限。
查看缓存全文
缓存时间: 2026/05/25 08:56
# AutoResearch AI:迈向人工智能驱动的科学发现研究自动化 来源:https://arxiv.org/html/2605.23204 桂瑶铁¹ 贾文石¹ 宋定杰² 黄逸潇¹ 盛子骥¹ 周雪阳¹ 陈永超³ 刘代宗⁴ 周潘¹ 徐然⁵ 何丽芳² 温庆森⁶ 李曼玲⁷ 鲁聪⁸ 李帅⁹ 谢鹏涛¹⁰ 袁奕萱¹¹ 孟锐¹⁴ 邢磊¹³ 孙立超² 熊蔡明¹⁵ 俞士纶¹² 高剑峰¹⁶ ¹华中科技大学 ²里海大学 ³清华大学 ⁴武汉大学 ⁵Salesforce Research ⁶松鼠AI学习 ⁷西北大学 ⁸独立研究者 ⁹上海交通大学 ¹⁰加州大学圣地亚哥分校 ¹¹香港中文大学 ¹²伊利诺伊大学芝加哥分校 ¹³斯坦福大学 ¹⁴谷歌云AI研究 ¹⁵递归超级智能 ¹⁶微软研究院 ###### 摘要 科学研究正日益被人工智能系统重塑,这些系统超越了孤立的辅助功能,进入更长期的文献基础、假设生成、实验、验证、报告和修订过程。这一转变标志着从任务级的“AI for Science”向工作流级的研究自动化过渡。然而,该领域仍然分散:现有系统在自主性、领域范围、执行环境、验证机制以及对人工监督的依赖程度上存在显著差异。尽管许多系统能够生成合理的想法、操作工具、运行受限的实验或产出精良的产物,但在证据保留、可重复性、弱方向拒绝、来源追踪、跨领域鲁棒性以及负责任的科学闭环方面,它们仍面临持续挑战。本综述通过 **AutoResearch** 的视角审视这些发展。我们将 AutoResearch 定义为 AI 驱动的科学工作流自动化的一个发展频谱。在这个频谱中,**Vibe Research** 指的是人类引导的区域,AI 通过基于提示的辅助和人类验证的执行来扩展本地研究能力;而新兴的 AI 主导系统则开始协调发现循环的更大部分,但尚未实现稳健的自主性。本综述并非仅根据模型家族、智能体架构或基准性能对先前工作进行分类,而是分析研究系统如何在科学工作流中重新分配控制权、证据、执行、验证和问责。我们围绕五个反复出现的工作流条件来组织 AutoResearch 的技术基础:文献与研究基础、假设形成与规划、实验与工具使用、反馈验证与评审、以及报告与知识传播。我们进一步在一个统一的分析框架内,综合了 AI 科学家系统、混合主动式协同研究框架、基准测试生态系统、特定领域部署以及开源基础设施。为了评估进展,我们提出了五个评估维度——新颖性、有效性、影响力、可靠性和来源——这将关注点从单纯的任务完成转移到工作流级产出的科学可信度。我们的分析表明,AutoResearch 的实际天花板强烈依赖于领域条件:在研究产物结构化、可执行且可快速验证的环境中,更高的自主性目前更可信;而在科学主张依赖于具体实验、延迟验证、异质证据、伦理约束或机构问责的领域中,则更为有限。通过连接概念边界、技术基础、评估逻辑和领域条件化的自主性天花板,本综述阐明了 AutoResearch 的当前格局,并确定了值得信赖的 AI 参与科学探究所需的条件。 参见图注 图1:AutoResearch 的层级分解。该图展示了在 L0-L4 自主性频谱和五个科学工作流阶段中人与 AI 责任的转移,在工作流步骤层面区分了“Vibe Research”(L1-L2)与更广泛的“AutoResearch”(L3-L4)。 目录 ## 1 引言 人工智能影响科学研究已有多年,但这种影响的形式已发生重大变化。早期的“AI for Science”浪潮主要由针对明确界定的科学子问题的专门模型和任务特定系统主导,例如分子性质预测、科学成像、自动化数据分析、文献检索以及特定领域的模拟或优化 [luo2025llm4sr]。一个典型的例子是 AlphaFold,其在蛋白质结构预测方面的成功证明了一个高能力的 AI 系统如何能够转变一项重要的科学任务,同时仍然运行在一个相对狭窄且明确的问题设定中 [Jumper2021AlphaFoldNature]。然而,最近,能力前沿已从狭窄的预测和检索转向更强的语言理解、推理、检索增强综合、工具使用、代码生成和迭代多步骤执行 [Gridach2025Agentic, wei2025ai, Zhang2025TheEvolvingRoleofLar]。这一变化之所以重要,是因为它不仅扩展了 AI 能够多好地执行孤立科学任务,而且还扩展了它能够多广泛地参与到研究过程本身中:系统越来越能够协助进行文献基础,支持想法生成,帮助制定计划,执行代码和工具,分析中间输出,以及贡献于报告和修订 [ZHENG2025Automation, Muskaan_Goyal_2025, Hasib_2025]。因此,由此产生的转变不仅仅是从较弱的模型到更强的模型,而是从局部任务增强到日益可能的工作流级研究自动化。最近的系统,如 **The AI Scientist** [Lu2024AIScientist],使这种转变尤为明显,因为它们不再只针对一个科学子任务,而是试图在一个集成的研究流程中连接想法生成、代码编写、实验、分析和手稿制作,其输出仍需科学验证 [Lu2024AIScientist, Yamada2025AIScientistV2, Kon2025Curie, PiFlow2025]。正是这种从任务特定的“AI for Science”到日益面向工作流的研究自动化的更广泛转变,激励了本综述 [Undermind2025Largelanguagemodelsforautoma, Liu2025AVisionforAutoResear]。 最近一波系统已开始将这种更广泛的可能性转化为具体的研究实践。在较轻的一端,基于文献和深度研究风格的系统扩展了 AI 在搜索、综合和结构化知识支持方面的能力,例如 LitLLM [Agarwal2024LitLLM]、OpenScholar [OpenScholarGitHub] 和 PaperQA2 [PaperQA2_2024, PaperQA2GitHub]。在更侧重执行层面,可控的工作空间和编码基础,如 OpenHands [Undermind2024OpenHandsAnOpenPlatformforAI]、Aider [AiderGitHub] 和 SWE-agent [SWEAgentGitHub],使得 AI 在人类指导下操作文件、工具和实验产物变得越来越实用。最近,集成的 AutoResearch 系统和操作栈开始连接研究循环的更广泛环节,从构思和实验设计到执行、分析和草稿撰写,例如 The AI Scientist [Lu2024AIScientist]、AI Scientist-v2 [Yamada2025AIScientistV2]、Agent Laboratory [AgentLaboratoryGitHub]、AI-Researcher [HKUDSAIResearcherGitHub]、ARIS [ARISGitHub] 和 NanoResearch [nanoresearch2026]。综上所述,这些发展表明研究自动化不再只是一个推测性的抱负或一系列孤立的模型演示,而是一个新兴的、系统级的 AI for Science 方向。同时,流程整合不应等同于已实现的科学自主性。现有系统在搜索、草拟、编码和某些形式的受限执行方面已经很强,但在验证、拒绝、异常处理、可重复性和负责任的科学闭环方面仍然薄弱得多 [Chen2025AIRSBench, SPOT2025ScientificPaperErrorDetection, Gueroudji_2025, Xie2025How]。现有的综述已经认识到这一格局的重要部分,但在范围、分析单元以及对自主性的隐含假设方面仍然存在显著差异 [ZHENG2025Automation, Gridach2025Agentic, wei2025ai, Tie2025Survey, Chen2025AI4Research, Liu2025AVisionforAutoResear]。因此,需要一个以工作流为中心的描述,以便在一个单一的分析框架内比较这些系统、它们的自主性声明及其科学限制。 为了在一个共同的分析框架内比较这个新兴但仍分散的格局,本综述采用了一种以工作流为中心的研究自动化概念。我们使用术语 **AutoResearch** 来描述科学实践的这种更广泛的重组,其中 AI 不再局限于孤立的分析辅助,而是越来越多地参与到扩展的科学过程中,涉及文献基础、构思、实验、验证、报告以及研究计划的迭代延续。更准确地说,AutoResearch 标志着一个工作流级别的科学探究范式,其中人和 AI 的贡献在发现循环中根据控制、执行、验证和科学问责的不同分配而分布。如图1 (https://arxiv.org/html/2605.23204#S0.F1) 所预览,这种重新分配发生在科学工作的主要阶段,而不是在一个单一的孤立任务内。我们将这种转变形式化为一个五级科学工作流自主性频谱,标记为 **L0** 到 **L4**。这些级别描述了 AI 在组织、执行、验证和关闭研究工作流方面的参与程度,而不是 AI 工具在过程中出现的频率。 在这个频谱中,**L1-L2** 捕捉了 AutoResearch 的人类引导区域,其中受限的 AI 辅助和人类验证的 AI 执行目前占主导地位。我们将这个区域称为 **Vibe Research**,这是一个面向实践者的简称,用于描述 AI 扩展了本地研究能力,而人类保留科学方向、验证和问责的工作流。**L3** 标志着 AI 主导的 AutoResearch 的开端,但我们保留此级别用于那些能够协调工作流的大部分内容,并产生科学上可信的输出而无需常规逐步人类验证的系统。因此,当前的集成流程为 **L3** 提供了压力,而非其成熟实例。**L4** 代表一个理想化的状态,即 AI 能够实现常规工作流闭环,而人类在常规执行中结构上并非必需,同时仍受机构监督和科学问责。图2 (https://arxiv.org/html/2605.23204#S1.F2) 总结了沿四个轴线的该自主性频谱:工作流控制、任务执行、验证权威和科学责任。因此,这些级别是对控制权和责任的描述性分配,而非科学可取性的普适排名。这五个级别可以定义如下。 参见图注 图2:AutoResearch 的五级自主性频谱。该图通过比较工作流控制、任务执行和验证权威如何从人类研究转向 AI 自主研究,总结了 L0 到 L4 各级别。更高级别定义了更严格的自主性目标,而非暗示当前系统已密集地占据了这些级别。 * **L0:仅人类。** 在 L0 级别,科学探究在整个工作流中保持人类主导、人类执行和人类验证。研究人员识别问题、解释先前工作、提出假设、设计和运行实验、评估证据,并决定一个主张何时足够成熟可以进入科学记录。此级别的定义特征不仅仅是人类在场,而是科学判断、工作流闭环和问责在每个关键转换点都完全保留在人类手中。数字工具可能支持局部操作,但它们并不将科学能动性重新分配到普通人类研究过程之外。在这个意义上,L0 对应于科学的传统组织方式,其中批评、验证和接受仍然嵌入在人类推理、学科规范和共同体评审中 [Popper1959LogicScientificDiscovery, Kuhn1962StructureScientificRevolutions]。正是这个完全人类保留的基线使得后续级别具有分析意义 [Merton1973SociologyScience]。 * **L1:人类主导,AI 辅助。** 在 L1 级别,工作流仍然是决定性地由人类主导,但 AI 成为其中一种常规的有限辅助来源。此级别的典型模式是:研究人员仍然组织探究、决定什么重要并保留对所有关键判断的责任,而 AI 被用于加速特定的认知任务,如文献搜索、总结、解释、头脑风暴、草拟和轻量级分析。因此,L1 与 L0 的区别不在于执行或闭环的转移,而是在一个原本由人类组织的工作流内部重复插入 AI 作为局部认知辅助 [Zhang2025TheEvolvingRoleofLar, Muskaan_Goyal_2025]。实际上,L1 是与基于提示的研究辅助最密切相关的状态,系统可能非常有用,但仍然范围狭窄:它们为工作流提供信息,但不实质性地控制它 [Chen2025AI4Research]。通用的大型语言模型接口,如 GPT-4 类系统 [OpenAI2024GPT4] 和 DeepSeek 风格接口 [DeepSeek2025DeepSeekR1],是这种操作模式的代表。 * **L2:人类验证,AI 执行。** 在 L2 级别,AI 开始执行研究工作流的实质性部分,但验证、接受和问责的科学权威仍由人类持有。从 L1 到 L2 的决定性转变不仅仅在于 AI 变得更有帮助,而在于它开始执行原本需要人类直接执行的工作:读取和修改文件、生成和修订代码、调用工具、运行分析、产生中间产物,或在可控环境中协调几个有界的步骤。在这种状态下,人类不再需要手动执行每一个局部操作,但他们仍然设定研究议程,决定一个分支是否应该继续,检查输出是否有效,并确定结果是否足够可靠以进入科学工作流。这就是为什么 L2 应该被理解为“人类验证的 AI 执行”:AI 可以执行有意义的研究劳动,有时跨越多步骤甚至类似流程的工作流,但科学闭环仍然依赖于人类判断。代表性示例包括编码和执行基础,如 OpenHands [OpenHandsGitHub]、Aider [AiderGitHub] 和 SWE-agent [SWEAgentGitHub];混合主动式共同研究系统,如 AI co-scientist [gottweis2025towards] 和 FreePhD [Li2025Build];以及集成研究流程,如 The AI Scientist [Lu2024AIScientist]、AI Scientist-v2 [Yamada2025AIScientistV2] 和 Agent Laboratory [AgentLaboratoryGitHub]。这些系统在工作流范围和执行能力上有所不同,但当它们的假设、方法、结果、手稿或部署决策仍需要人类研究人员评估有效性、新颖性、可重复性、可用性和最终接受时,它们仍处于 L2 级别。 * **L3:AI 主导,人类辅助。** 在 L3 级别,研究工作流开始从人类验证的执行转向 AI 主导的协调。此级别的定义特征是 AI 不仅仅是执行有界的任务或连接几个模块,而是开始组织工作流的更大部分,包括基础、规划、执行、验证
相似文章
AutoResearch AI:迈向AI驱动的科学发现研究自动化
一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。
AI 自动研究:路线图与用户指南
本文调研了AI在整个研究生命周期中的能力与局限,从创意生成到成果发布,识别出可靠辅助与不可靠自主之间的明确界限。它提供了一个分类体系、基准测试套件、工具清单以及人类主导的AI协作研究设计原则。
AutoResearchClaw:自我强化的自主研究与人机协作
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。
我们距离真正的自动研究还有多远?
本文介绍了ResearchArena,一个用于评估自动研究智能体的框架,并发现虽然智能体生成的论文在仅稿件评审下看似具有竞争力,但结合工件的评审揭示了实验严谨性方面的严重缺陷,没有一篇论文达到顶级会议的接收标准。
@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。