AutoSci：面向完整科研生命周期的以记忆为中心的智能代理系统

arXiv cs.AI 2026/06/01 04:00 论文

摘要

AutoSci是一个以记忆为中心的智能代理系统，旨在自动化完整的科学研究生命周期，从文献理解到回复审稿意见，使用基于LLM的智能体，具有持久记忆和自我进化能力。

arXiv:2605.31468v1 公告类型：新摘要：科学研究传统上是人力密集型工作，需要研究人员在漫长的项目周期内协调文献、想法、实验、手稿和审稿回复。基于LLM的科学智能体的兴起为自动化这一过程提供了机会。这样的系统必须支持完整的研究生命周期，跨项目维护结构化的持久记忆，并随着时间的推移改进自身的研究流程。然而，现有系统要么部分满足、要么未能满足这些要求，留下了统一自动化科学研究系统的空白。因此，我们提出了AutoSci，一个面向完整科研生命周期的以记忆为中心的智能代理系统。AutoSci围绕四个模块组织。SciMem提供由模式管理的研究记忆，将可重复使用的科学知识的长期知识记忆与项目级工件（如想法、实验、手稿和审稿）的活跃研究记忆分开。SciFlow通过一个控制状态、上下文、验证、反馈和编排的框架执行从文献理解到回复审稿意见的五阶段生命周期。SciDAG通过DAG形状的多智能体操作符和可重用的阶段特定模板来增强困难技能。SciEvolve将来自用户、实验、审稿和外部环境的反馈信号转换为对SciMem组织、SciFlow技能和SciDAG模板的版本化更新。这些模块共同使AutoSci成为一个持久的研究环境，能够在研究项目之间执行、记忆和进化。代码仓库位于https://github.com/skyllwt/AutoSci。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:27

# AutoSci：以记忆为中心的完整科学研究生命周期代理系统
来源：https://arxiv.org/html/2605.31468
Weitong Qian\*,†, Beicheng Xu\*,†, Zhongao Xie\*,†, Bowen Fan†, Guozheng Tang†, Jiale Chen†, Xinzhe Wu†, Mingtian Yang†, Chenyang Di†, Jiajun Li†, Lingching Tung†, Peichao Lai†, Yifei Xia†, Ziyi Guo†, Yanwei Xu†, Yanzhao Qin†, Shaoduo Gan†, Xupeng Miao†, Bin Cui†,🖂 †北京大学，北京，中国 \*同等贡献\.🖂通讯作者\. \*\{weitong\.qian, beichengxu, zaxie25\}@stu\.pku\.edu\.cn,🖂bin\.cui@pku\.edu\.cn

###### 摘要

科学研究传统上是一项人力密集型工作，研究者需要在漫长的项目周期中协调文献、想法、实验、稿件和审稿回复。基于LLM的科学智能体的兴起为自动化这一过程创造了机会。这样的系统必须支持完整的研究生命周期，跨项目维护结构化的持久记忆，并随时间推移改进其自身的研究流程。然而，现有系统要么部分满足，要么未能满足这些要求，为统一的自动化科学研究系统留下了空白。为此，我们提出AutoSci，一个以记忆为中心的完整科学研究生命周期代理系统。AutoSci围绕四个模块组织。SciMem提供由模式管理的研究记忆，将可复用的科学知识分离到长期知识记忆，将项目级工件（如想法、实验、稿件和审稿意见）分离到活跃研究记忆。SciFlow通过一个控制状态、上下文、验证、反馈和编排的管理框架，执行从文献理解到回复的五个阶段生命周期。SciDAG通过DAG形状的多智能体操作符和可复用的阶段特定模板来增强困难技能。SciEvolve将来自用户、实验、审稿和外部环境的反馈信号转换为对SciMem组织、SciFlow技能和SciDAG模板的版本化更新。这些模块共同使AutoSci成为一个持久的研究环境，能够跨研究项目执行、记忆和进化。代码仓库见https://github.com/skyllwt/AutoSci。

## 1 引言

科学研究长期以来一直是一个严重依赖人类驱动的过程：研究者必须手动追踪文献、形成假设、实现方法、运行实验、分析证据、撰写论文并回应审稿意见。这个过程是劳动密集型的，尤其是当项目需要广泛的文献覆盖、实验以及跨众多中间工件的仔细协调时。大语言模型和多智能体系统的兴起已经开始改变这一图景。当结合工具、代码执行、外部科学资源和协调工作流时，这些系统可以自动化研究生命周期，并支持系统性的探索、验证、监控和稿件生产（Huang等人，2025（https://arxiv.org/html/2605.31468#bib.bib12）；Chai等人，2025（https://arxiv.org/html/2605.31468#bib.bib15）；Zhang，2026（https://arxiv.org/html/2605.31468#bib.bib16））。

一系列工作专注于特定的科学能力，而非完整的论文生产管线。AI co-scientist（Gottweis等人，2025（https://arxiv.org/html/2605.31468#bib.bib8））针对科学家在环的假设生成和生物医学验证；POPPER（Huang等人，2025（https://arxiv.org/html/2605.31468#bib.bib12））研究自由形式假设的自动证伪；AutoSciLab（Desai等人，2024（https://arxiv.org/html/2605.31468#bib.bib13））开发自驱动实验室流程；双层LLM-仿真优化将LLM推理与科学仿真连接起来（Ma等人，2024（https://arxiv.org/html/2605.31468#bib.bib14））；SciMaster/X-Master（Chai等人，2025（https://arxiv.org/html/2605.31468#bib.bib15））使用代码和工具增强推理进行科学问题求解；Deep Researcher Agent（Zhang，2026（https://arxiv.org/html/2605.31468#bib.bib16））强调持续的实验执行、监控和反思。这些工作展示了LLM智能体在单个科学操作中的价值，但它们本身并未定义完整的研究生命周期。

更大胆的系统超越了单一能力，瞄准完整的研究工作流。AI Scientist系列（Lu等人，2024（https://arxiv.org/html/2605.31468#bib.bib4）；Yamada等人，2025（https://arxiv.org/html/2605.31468#bib.bib5））和AI-Researcher（Tang等人，2025（https://arxiv.org/html/2605.31468#bib.bib6））自动化了想法生成、实验执行、论文写作、审稿以及后来的无模板智能搜索；而Agent Laboratory（Schmidgall等人，2025（https://arxiv.org/html/2605.31468#bib.bib7））支持从用户提供的想法开始的研究工作流。相关的全循环系统进一步建模了研究-审稿-改进、目标导向的累积发现和记忆增强的发现，如CycleResearcher（Weng等人，2024（https://arxiv.org/html/2605.31468#bib.bib9））、DeepScientist（Weng等人，2025（https://arxiv.org/html/2605.31468#bib.bib10））和EvoScientist（Lyu等人，2026（https://arxiv.org/html/2605.31468#bib.bib11））。随着这些工作流变得越来越长期运行，研究管理框架的设计变得至关重要，因为科学智能体除了更强模型外，还需要持久状态、工具契约、审稿关口和可恢复的执行。代表性的面向管理框架的系统包括ARIS（Yang等人，2026（https://arxiv.org/html/2605.31468#bib.bib17））、NORA（Zhou等人，2026（https://arxiv.org/html/2605.31468#bib.bib18））和Deep Researcher Agent（Zhang，2026（https://arxiv.org/html/2605.31468#bib.bib16）），它们增加了持久状态、监控、来源或声明检查、审稿关口、领域护栏和可恢复的长时间运行执行。这些系统将科学智能体推向端到端自动化，但大多数仍然围绕单个项目或论文生成管线组织。

表1：代表性全循环科学智能体系统和研究管理框架的功能级比较。符号表示完全支持（✓）、部分或项目本地支持（∘\\circ）以及非主要关注功能（–）。这里，持久记忆指跨越完整研究或论文生成管线存活并能被后续管线复用的研究记忆，而非仅在单次运行中保留的状态。完整的系统进化进一步要求修改科学智能体系统本身，如其技能、工作流协议、提示或工件契约；仅累积可复用的文本经验被视为部分支持。从系统角度看，一个自动化的科学研究系统应满足四个要求：1) **全生命周期支持**。由于科学研究涵盖文献理解、想法生成、实验验证、稿件撰写和回复，自动化系统应在整个过程中提供阶段特定的技能和工件交接。表1（https://arxiv.org/html/2605.31468#S1.T1）因此重点关注代表性的全循环科学智能体，并比较它们满足其余系统要求的程度。2) **执行管理框架**。长期运行的研究不能仅依赖无约束的对话；它需要持久状态、受控上下文、验证关口、反馈路由和可恢复的编排。然而，一些早期系统主要使用较轻的运行时控制来协调研究。3) **结构化和持久记忆**。记忆必须结构化，以使科学信息在语义上可解释、可扩展，并按依赖关系组织，而不是存储为无差别的文本。然而，现有系统大多存储摘要、日志、策略或工件，而不是将科学信息组织为具有显式依赖关系的类型化对象。此外，大多数先前系统仅在单个研究项目或论文生成管线内保留记忆，而不是为未来的工作流保存可复用的跨项目经验。4) **自我进化**。一个自动化的研究系统不仅应积累文本经验，还应利用用户反馈和实验结果来迭代改进其自身的技能和工作流。尽管EvoScientist将先前经验提炼为可复用的文本记忆，但现有系统通常不会修改智能体系统本身，如其技能和工作流协议。总体而言，比较表明现有系统仍然是碎片化的：它们改进了自动化科学的不同部分，但尚未形成一个可以跨项目执行、记忆和进化的统一研究系统。

为了解决这一空白，我们引入了**AutoSci**，一个以记忆为中心的完整科学研究生命周期代理系统。AutoSci围绕四个模块构建：**SciMem**，一个结构化的持久研究记忆，存储科学知识、活跃项目工件和跨项目经验；**SciFlow**，一个基于管理框架的完整科学研究生命周期执行框架，协调文献、构思、实验、写作和回复；**SciDAG**，一个基于DAG的多智能体增强机制，用于需要更广泛搜索、辩论、验证或改进的阶段；以及**SciEvolve**，一个全系统进化层，将用户反馈、实验结果和审稿信号转换为对记忆、技能和编排模板的版本化更新。图1（https://arxiv.org/html/2605.31468#S1.F1）提供了AutoSci架构的概览。我们的主要贡献总结如下：

- • 我们将自动化科学研究形式化为一个需要跨项目执行、记忆和进化的长生命周期系统问题，而非孤立的任务自动化。
- • 我们设计了一个以记忆为中心的架构，其中结构化的持久科学记忆作为研究工作流、多智能体执行和自我改进的共享基础。
- • 我们实现了一个端到端的AutoSci系统，集成了生命周期技能、受管理框架的执行、基于DAG的多智能体增强和版本化的自我进化。
- • 我们在GPU内核优化和生物医学药物发现中进行了两个端到端案例研究，AutoSci生成了可审阅的论文级工件，分别获得了6.3/10和5.8/10的自动化ICLR审稿分数。

参见说明图1：AutoSci概览。
## 2 系统概述

AutoSci针对长期科学研究：一个系统应不仅能完成一个研究项目，还能跨多个项目积累知识、实验经验、投稿反馈和执行策略。这一目标要求智能体更像一个持久的、能与用户、外部资源和实验系统随时间交互的研究环境，而非单会话助手。我们遵循四个设计原则：

- • **环境交互**。AutoSci应与完整的研究环境交互，包括用户指令、文献和代码库以及实验运行时。
- • **结构化持久记忆**。AutoSci应维护结构化的长期科学记忆，以便论文、概念、方法、实验、审稿及其关系能跨完整研究项目持久存在并可复用。
- • **受管理框架的执行**。AutoSci应通过显式的管理框架运行，使研究生命周期可中断、可审阅且跨会话可复用。
- • **全系统进化**。AutoSci应超越积累可复用经验，将重复出现的反馈转化为对其自身技能、协议和提示的受控更新。

表2：AutoSci系统概览（v1.0.0，2026年5月）。这些原则引出四个模块。**SciMem**提供由模式管理的研究记忆；**SciFlow**在该记忆上执行完整的科学生命周期；**SciDAG**可选择性地用DAG形状的多智能体操作符增强困难阶段；**SciEvolve**将追踪和反馈转化为版本化的系统更新。这些模块共同形成一个闭环，其中研究工件被生产、检查、存储、复用，最终用于改进系统本身。表2（https://arxiv.org/html/2605.31468#S2.T2）总结了我们详细描述每个模块之前的已实现系统范围。

## 3 SciMem：由模式管理的研究记忆

SciMem专为长期科学记忆设计：记忆不应在单个实验、论文或研究项目后消失，而应在未来项目中保持可复用。为支持这一目标，SciMem将记忆分为两个责任不同的区域。**长期知识记忆**保留跨项目应累积的经整合的科学知识，而**活跃研究记忆**追踪正在进行的学术研究论文或实验报告的快速变化状态。下面，我们首先介绍这两个记忆区域，然后描述SciMem随时间如何增长和流动。

### 3.1 长期知识记忆

长期知识记忆用于保存AutoSci从外部来源和先前研究周期中积累的科学知识，以便后续项目无需从头重建相同上下文即可复用。该区域通过文献摄入技能（来源如arXiv、Semantic Scholar、GitHub和用户提供的文档）填充，并且可以通过已完成项目的整合经验进行精炼。该区域由类型化实体模式组织，而非由扁平文档或向量块组织。表3（https://arxiv.org/html/2605.31468#S3.T3）总结了长期实体类型。**在实现中**，每个实体存储为一个`.md`页面。

除了定义实体类型，长期模式还管理这些实体的连接方式。例如，`Topic`实体提供最粗糙的组织层：`Paper`、`Foundation`、`Concept`、`Method`和`People`实体可以放置在一个或多个主题内。`Paper`实体作为承载证据的来源，引入或批判`Concept`实体，应用或扩展`Method`实体，并贡献于`Foundation`实体。`Foundation`实体提供稳定的背景知识，为`Concept`和`Method`实体奠定基础。这些类型化关系将长期知识记忆从一组结构化页面转变为可遍历的科学知识图谱。**在实现中**，类型化链接存储为实体页面之间受模式约束的双向交叉引用，使图谱可导航且可机械检查。图2(a)（https://arxiv.org/html/2605.31468#S3.F2.sf1）可视化了长期知识记忆的实体模式和类型化连接。

长期知识记忆有两个定义性属性：1) **语义可寻址性**，允许下游技能直接检索类型化的科学对象及其关系；2) **增量可扩展性**，允许新文献和经过验证的发现跨研究管线追加，使记忆成为可复用的科学基础而非项目本地缓存。

表3：长期知识记忆中的实体类型。

参见说明 (a) 长期知识记忆。
参见说明 (b) 活跃研究记忆。

图2：SciMem中的两个记忆区域。
### 3.2 活跃研究记忆

活跃研究记忆是项目级工作空间，用于从头到尾生产一篇学术研究论文或实验报告。它记录当前项目的关键活跃工件，包括`Idea`、`Experiment`、`Manuscript`和`Review`实体，随着AutoSci推进项目进展。每个活跃实体携带显式的生命周期状态。`Idea`实体从`proposed`移动到`testing`，然后到`tested`、`validated`或`failed`；`Experiment`实体...

AutoSci：面向完整科研生命周期的以记忆为中心的智能代理系统

相似文章

auto-psych: 利用智能体驱动的理论发现与实验自动化心智科学

重新思考智能体时代的科学发现

@TheTuringPost: AutoScientists – 一个由智能体组成的研究实验室 @哈佛大学的研究人员将智能体连接成一个自组织的科学…

AutoResearch AI：迈向AI驱动的科学发现研究自动化

AutoResearch AI：迈向人工智能驱动的研究自动化以实现科学发现

提交意见反馈