LLM-AutoSciLab:通过主动实验实现闭环科学发现
摘要
LLM-AutoSciLab是一个闭环框架,利用LLM迭代生成假设、选择信息量大的实验并优化机制,在物理和生物学基准测试上相比之前的静态方法实现了更高的准确性和样本效率。
arXiv:2605.24043v1 Announce Type: new
Abstract: 科学发现是一个闭环过程,其中假设指导数据采集,观察结果则优化假设空间。然而,大多数方法将发现简化为对固定数据集的监督学习,有限观察结果可能支持多个局部拟合良好但无法泛化的合理机制。因此,关键挑战在于选择信息量大的观察结果以消除不确定性,将焦点从静态推理转向自适应数据采集。为解决这一问题,我们提出了LLM-AutoSciLab,这是一个闭环框架,将假设生成与基于假设的实验选择和机制优化相结合。LLM-AutoSciLab不是将模型拟合到被动收集的数据上,而是迭代地提出合理的假设,选择信息量大的实验来区分或优化它们,并利用由此产生的证据更新其状态。为了评估具有主动数据采集的动态闭环科学发现,我们引入了ActiveSciBench,包含两个数据集:包含57个酶动力学任务的ActiveSciBench-Chem和包含45个基因调控网络任务的ActiveSciBench-GRN。这些数据集将发现建模为一个受预算约束的过程,需要自适应实验设计、变量选择和真实机制的恢复。在NewtonBench、ActiveSciBench-Chem和ActiveSciBench-GRN上,LLM-AutoSciLab优于先前方法,在NewtonBench和ActiveSciBench-Chem上分别达到67.6%和35.1%的符号准确率,在ActiveSciBench-GRN上达到31.1%的精确图恢复。此外,假设引导的实验比最强的竞争基线样本效率高2-5倍。代码和数据可在以下网址获取:https://github.com/scientific-discovery/LLM-AutoSciLab
查看缓存全文
缓存时间: 2026/05/26 08:59
# LLM-AutoSciLab: 通过主动实验与LLM实现闭环科学发现 来源: https://arxiv.org/html/2605.24043 Sanchit Kabra1\*, Nikhil Abhyankar1\*, Saaketh Desai2, Prasad P\. Iyer2, Chandan K\. Reddy1 1弗吉尼亚理工大学2桑迪亚国家实验室 ###### 摘要 科学发现是一个闭环过程,其中假设指导数据获取,而观测结果又反过来细化假设空间。然而,大多数方法将发现简化为在固定数据集上的监督学习,在这些数据集中,有限的观测可能支持多个看似合理但仅在局部拟合、无法泛化的机制。因此,关键挑战在于选择信息量大的观测以解决不确定性,将重点从静态推理转向自适应数据获取。为解决这一问题,我们提出了LLM-AutoSciLab,这是一个闭环框架,将假设生成与假设条件化的实验选择及机制细化相结合。LLM-AutoSciLab并非将模型拟合到被动收集的数据上,而是迭代地提出看似合理的假设,选择有信息量的实验来区分或细化它们,并根据得到的证据更新其状态。为评估具有主动数据获取的动态闭环科学发现,我们引入了ActiveSciBench,包含两个数据集:(i) ActiveSciBench-Chem(57个酶动力学任务)和(ii) ActiveSciBench-GRN(45个基因调控网络任务),将发现建模为一个受预算约束的过程,需要自适应实验设计、变量选择和真实机制的恢复。在NewtonBench、ActiveSciBench-Chem和ActiveSciBench-GRN上,LLM-AutoSciLab优于先前方法,在NewtonBench和ActiveSciBench-Chem上分别实现了67.6%和35.1%的符号准确率,在ActiveSciBench-GRN上实现了31.1%的精确图恢复。此外,假设引导的实验与最强的竞争基线相比,样本效率提高了2-5倍。111代码:https://github\.com/scientific\-discovery/LLM\-AutoSciLab ††脚注:\*同等贡献。通讯作者:sanchit23@vt\.edu, nikhilsa@vt\.edu。 ## 1 引言 发现物理系统背后的支配原理仍然是科学中的一个核心挑战 (Udrescu and Tegmark,2020 (https://arxiv.org/html/2605.24043#bib.bib63); Petersenet al\.,2021 (https://arxiv.org/html/2605.24043#bib.bib26))。大型语言模型 (LLM) 的最新进展使得系统能够利用预训练知识、推理和工具使用来生成假设、分析观测结果并加速科学发现 (Wanget al\.,2023 (https://arxiv.org/html/2605.24043#bib.bib31); AI4Science and Quantum,2023 (https://arxiv.org/html/2605.24043#bib.bib30); Reddy and Shojaee,2025 (https://arxiv.org/html/2605.24043#bib.bib29))。然而,*现有方法将发现视为在固定数据集上的静态监督推理* (Cranmer,2023 (https://arxiv.org/html/2605.24043#bib.bib4); Shojaeeet al\.,2025a (https://arxiv.org/html/2605.24043#bib.bib34))。这种静态公式化造成了可辨识性瓶颈,即多个相互竞争的假设可能同样好地拟合有限的观测数据,同时无法泛化,从而无法恢复真实的潜在规律 (Jianget al\.,2025 (https://arxiv.org/html/2605.24043#bib.bib18))。在实践中,科学发现本质上是一个闭环,假设指导实验,而观测结果又细化后续假设 (Chenet al\.,2025a (https://arxiv.org/html/2605.24043#bib.bib42))。关键的是,科学家设计实验以诱导目标变化,迫使相互竞争的解释产生分歧,从而揭示静态数据无法分辨的差异 (Box and Hill,1967 (https://arxiv.org/html/2605.24043#bib.bib41); Ouyanget al\.,2016 (https://arxiv.org/html/2605.24043#bib.bib40))。尽管自驱动实验室 (SDL) 和主动学习系统实现了自适应实验 (Linget al\.,2017 (https://arxiv.org/html/2605.24043#bib.bib39); Kusneet al\.,2020 (https://arxiv.org/html/2605.24043#bib.bib52); Desaiet al\.,2025 (https://arxiv.org/html/2605.24043#bib.bib27)),但它们仍然需要大量人工努力来进行假设制定和细化。此外,它们的获取策略通常针对预测性能和不确定性降低进行优化,而不是针对机制识别。因此,它们并非旨在主动解决相互竞争的假设,从而限制了在有限实验预算下恢复真实潜在规律的能力。参见图注 图1:LLM-AutoSciLab概述。(A) LLM根据观测和记忆生成候选假设。(B) 在与假设最大分歧的区域主动选择实验。(C) 通过领域特定的优化(例如参数拟合和约束强制执行)迭代细化候选假设,置信度反馈指导更新。 为解决这一差距,我们提出了LLM-AutoSciLab,*这是一个闭环框架,将科学发现建模为主动的、假设条件化的实验设计,而不是在固定数据集上的被动回归* (表1 (https://arxiv.org/html/2605.24043#S1.T1))。在迭代t时,LLM-AutoSciLab从累积的观测和先前交互中构建一个结构化的机制假设集,然后识别候选机制预测不一致的区域。使用一个*假设条件化的获取目标(优先考虑机制化解)* 在线选择新实验,获取最具信息量的数据以分离相互竞争的规律 (图1 (https://arxiv.org/html/2605.24043#S1.F1))。由此产生的观测用于评估、细化或消除假设,并更新下一步获取步骤。与获取数据以减少不确定性的贝叶斯或传统主动学习方法不同,LLM-AutoSciLab选择实验以最大化显式候选机制之间的分歧,从而在有限的实验预算下实现规律恢复。真实的闭环发现需要评估设置,其中数据是通过实验设计主动获取的。如表2 (https://arxiv.org/html/2605.24043#S2.T2)所示,现有基准 (Udrescu and Tegmark,2020 (https://arxiv.org/html/2605.24043#bib.bib63); Cranmer,2023 (https://arxiv.org/html/2605.24043#bib.bib4); Shojaeeet al\.,2025b (https://arxiv.org/html/2605.24043#bib.bib37)) 假设完全观测的固定数据集,将发现简化为静态函数拟合。NewtonBench (Zhenget al\.,2026 (https://arxiv.org/html/2605.24043#bib.bib36)) 引入了对具有记忆抵抗性的反事实规律的交互式探测,但仍限于预定义的输入输出物理变量和符号规律恢复。 我们通过引入ActiveSciBench来填补这一空白,这是一个基于两个科学领域(化学和基因调控网络)的主动实验设计基准套件。两个数据集都施加了预算有限的 oracle 访问,其中相关变量是隐藏的,必须与实验设计和假设细化一起联合发现。ActiveSciBench-Chem专注于从选定的反应条件中提取酶动力学速率定律,并包含干扰变量;而ActiveSciBench-GRN则针对从扰动响应实验中提取有符号的因果调控图。它们共同将评估从符号回归扩展到方程结构和图结构发现。我们使用GPT-4o-mini和Qwen-3-4B/14B/32B评估了LLM-AutoSciLab,展示了它在各种设置中更快地发现支配机制。我们的主要贡献可概括如下: - •我们引入了LLM-AutoSciLab,一个**闭环科学发现框架**,结合了LLM引导的假设生成、假设条件化的实验设计和细化。 - •我们引入了ActiveSciBench,**一个用于科学驱动系统中主动顺序发现的基准套件**,其中数据是在预算有限的 oracle 访问下获取的,并且必须识别相关变量。 - •我们提出了一个**假设条件化的获取策略**,选择最大化竞争假设之间分歧的实验,在固定预算下提高样本效率。 - •我们表明,LLM-AutoSciLab在基准测试中优于先前方法,实现了高达67.6%的符号准确率和31.1%的精确图恢复,样本效率提高了2-5倍。消融实验确认了每个组成部分的重要性。 表1:不同科学发现框架在关键设计维度上的比较。 ## 2 相关工作 #### LLM 用于科学发现。 LLM 通过嵌入的知识和推理在假设生成 (Zhouet al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib48); Jansenet al\.,2026 (https://arxiv.org/html/2605.24043#bib.bib49))、数据驱动分析 (Majumderet al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib47); Reddy and Shojaee,2025 (https://arxiv.org/html/2605.24043#bib.bib29); Agarwalet al\.,2026 (https://arxiv.org/html/2605.24043#bib.bib45)) 和方程发现 (Shojaeeet al\.,2025a (https://arxiv.org/html/2605.24043#bib.bib34); Grayeliet al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib50); Behzadifaret al\.,2025 (https://arxiv.org/html/2605.24043#bib.bib51)) 方面显示出加速科学发现的巨大潜力。基于LLM的发现框架也已应用于化学 (Wanget al\.,2025 (https://arxiv.org/html/2605.24043#bib.bib33))、材料发现 (Abhyankaret al\.,2026 (https://arxiv.org/html/2605.24043#bib.bib32); Ganet al\.,2025 (https://arxiv.org/html/2605.24043#bib.bib58)) 和程序合成 (Romera\-Paredeset al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib35)) 等领域。然而,大多数现有系统既具有特定表示性又被动,它们在预定的输出空间(如方程、材料或程序)内搜索,并使用LLM主要进行事后假设生成和对预先收集的静态数据集的细化 (表1 (https://arxiv.org/html/2605.24043#S1.T1))。我们通过利用LLM的表示灵活性超越候选生成来扩展这一工作线,其中假设作为机制层面的对象,指导在线实验选择,从而闭环假设生成、数据获取和细化。 #### 科学发现的实验设计。 实验设计将发现形式化为在有限预算下选择测量以减少对假设的不确定性 (Ouyanget al\.,2016 (https://arxiv.org/html/2605.24043#bib.bib40)),应用于材料和过程优化 (Linget al\.,2017 (https://arxiv.org/html/2605.24043#bib.bib39); Kusneet al\.,2020 (https://arxiv.org/html/2605.24043#bib.bib52))、药物发现和分子设计 (Baileyet al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib61); Kyroet al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib60))、基因组学和扰动筛选 (Huanget al\.,2023 (https://arxiv.org/html/2605.24043#bib.bib59); Qinet al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib77)) 以及应用物理学 (Melnikovet al\.,2018 (https://arxiv.org/html/2605.24043#bib.bib57))。自驱动实验室通过将自适应决策与自动化合成和表征相结合,将这一范式扩展到物理闭环平台 (Abolhasani and Kumacheva,2023 (https://arxiv.org/html/2605.24043#bib.bib53); MacLeodet al\.,2020 (https://arxiv.org/html/2605.24043#bib.bib54))。最近的系统如AutoSciLab (Desaiet al\.,2025 (https://arxiv.org/html/2605.24043#bib.bib27)) 将主动学习与符号模型恢复相结合,而更广泛的发现框架协调实验选择、模型构建和修订 (Langley,2024 (https://arxiv.org/html/2605.24043#bib.bib56))。然而,此类系统通常依赖于领域特定的实验接口、获取目标、模型类别或预定义的假设空间,限制了与表示无关的发现。LLM-AutoSciLab则将获取视为机制区分:它构建竞争假设,识别它们分歧的地方,并选择实验来分离、细化或证伪它们。 #### 科学发现基准。 科学发现基准主要评估从固定观测中恢复,其中变量已提供,目标是方程或预测模型 (Udrescu and Tegmark,2020 (https://arxiv.org/html/2605.24043#bib.bib63); Cranmer,2023 (https://arxiv.org/html/2605.24043#bib.bib4)) (表2 (https://arxiv.org/html/2605.24043#S2.T2))。最近的发现基准通过新生成或分布外任务减少了记忆,但仍将发现评估为从预先收集的数据集中离线恢复,而不是主动获取有信息量的观测 (Shojaeeet al\.,2025b (https://arxiv.org/html/2605.24043#bib.bib37); Kabraet al\.,2026 (https://arxiv.org/html/2605.24043#bib.bib62))。NewtonBench (Zhenget al\.,2026 (https://arxiv.org/html/2605.24043#bib.bib36)) 引入了对反事实系统的主动查询,但仍限于预定义变量和封闭形式规律恢复。其他基准侧重于动力学预测 (Takamotoet al\.,2022 (https://arxiv.org/html/2605.24043#bib.bib64); d’Ascoliet al\.,2024 (https://arxiv.org/html/2605.24043#bib.bib65))、条件优化 (Häseet al\.,2021 (https://arxiv.org/html/2605.24043#bib.bib66)) 或从基准提供的扰动中进行因果和基因调控推断 (Chevalleyet al\.,2025 (https://arxiv.org/html/2605.24043#bib.bib67); Pratapaet al\.,2019 (https://arxiv.org/html/2605.24043#bib.bib68); Schaffteret al\.,2011 (https://arxiv.org/html/2605.24043#bib.bib69))。相比之下,我们的基准评估主动机制发现,其中学习者必须在固定预算下选择实验,识别相关变量,并从隐藏的实验系统中恢复方程或图结构的机制。 表2:科学发现基准在关键属性上的比较。 ## 3 LLM-AutoSciLab方法 我们将LLM-AutoSciLab实现为一个在动态维护的假设集上的迭代算法。在每次迭代中,从基于当前状态条件的分布中采样候选机制,并通过最大化该集合上假设间的分歧目标来选择下一个实验。通过将每个候选假设重新拟合到增广数据集、计算其经验损失,并应用基于稳定性的过滤以保留一致的机制并消除不稳定的机制,从而纳入观测结果。 ### 3.1 问题形式化 算法1 LLM-AutoSciLab 1:Oracle O,数据集 D,预算 B,状态 S_t,搜索区域 R,记忆 E,LLM π_θ,假设集 H_t,置信度阈值 τ_conf,置信度分数 c_t 2:# 初始化数据和经验缓冲区 3: D_0, c_0, E_0 ← ∅, ∅, InitMemory() 4:for t=0,...,B-1 do 5: S_t ← (D_t, E_t, H_t) 6: # 提出假设和搜索区域 7: H_t, R_t ← GenHyp(π_θ^large, π_θ^small, S_t) 8: # 选择获取模式 9: if c_t < τ_conf then 10: mode ← Disambiguate 11: Δ_t ← Disagree(H_t, D_t) 12: else 13: mode ← R
相似文章
AutoLLMResearch:通过从低成本学习来优化高成本,训练研究智能体以自动化大型语言模型实验配置
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
"Excuse me, may I say something..." CoLabScience,一个用于生物医学发现和大语言模型-专家协作的主动型AI助手
CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手,它使用PULI(正无标签学习干预)这一新颖的强化学习框架,在科学讨论中自主进行干预,决定何时以及如何提供上下文感知的见解。该工作还包括BSDD,一个新的基准数据集,由基于PubMed文章的模拟研究对话和干预点组成。
AutoSci:面向完整科研生命周期的以记忆为中心的智能代理系统
AutoSci是一个以记忆为中心的智能代理系统,旨在自动化完整的科学研究生命周期,从文献理解到回复审稿意见,使用基于LLM的智能体,具有持久记忆和自我进化能力。
CausaLab: 面向AI科学家的可扩展交互式因果发现环境
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。