MDForge：稀疏模拟器反馈下的智能体分子动力学流程设计

arXiv cs.AI 2026/06/12 04:00 论文

摘要

MDForge 是一个 LLM 智能体，可自动化设计用于主客体结合自由能计算的分子动力学流程，取得了与人类专家相当的结果，并发现了一种新型高亲和力结合物。

arXiv:2606.12916v1 公告类型：新摘要：分子动力学（MD）是原子尺度分子科学中经典的计算方法，基于第一性原理物理模拟分子行为。为新的系统设计 MD 流程需要大量的专业知识：即使只对一个分子进行运行成本也很高，排除了试错的可能性。我们使用 LLM 智能体将这个专家流程设计过程自动化。与现有编排预定义工具集的 MD 智能体不同，我们将流程设计视为开放式代码生成，其中智能体的行为通过语言奖励在线重塑。具体来说，我们构建了 MDForge，这是一个 LLM 智能体，其上下文更新规则通过物理专家之间的多智能体辩论来稠化稀疏奖励。在三个 SAMPL 主客体结合自由能基准测试中，MDForge 自动设计了与人类专家相竞争的 MD 流程。部署在一个包含未知候选客体的库上，其 CB[7] 流程发现了一种新型结合物，湿实验竞争性 NMR 证实这是一种高亲和力、皮摩尔级的 CB[7] 结合物。我们的数据和代码可在 https://github.com/Zehong-Wang/MDForge 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:54

# Agentic Molecular Dynamics Pipeline Design under Sparse Simulator Feedback  
来源：https://arxiv.org/html/2606.12916  
Zehong Wang¹, Yijun Ma¹, Connor R. Schmidt¹, Tianyi Ma¹, Weixiang Sun¹, Ziming Li², Xiaoguang Guo², Chuxu Zhang², Matthew J. Webber¹, Yanfang Ye¹,†  
¹圣母大学  
²康涅狄格大学  
†通讯作者 @nd.edu  

###### 摘要  
分子动力学（MD）是原子级分子科学中经典的计算模拟方法，通过第一性原理物理模拟分子行为。为新系统设计 MD 管线需要大量专家知识：即使对单个分子运行一次也代价高昂，无法通过试错实现。我们利用大语言模型（LLM）智能体自动完成这一专家级管线设计过程。与现有通过预定义工具集来编排操作的 MD 智能体不同，我们将管线设计视为开放式代码生成，智能体的行为由语言奖励在线重塑。具体来说，我们构建了 MDForge，一种 LLM 智能体，其上下文内更新规则通过物理学专家之间的多智能体辩论，将稀疏奖励稠密化。在三个 SAMPL 主客体结合自由能基准测试（CB[7]、OAH、CBClip）上，MDForge 自动设计的 MD 管线与人类专家设计相当。将其 CB[7] 管线应用于未见过的候选客体库时，发现了一种新型结合剂，湿实验室竞争核磁共振（NMR）确认其为高亲和力、皮摩尔级别的 CB[7] 结合剂（$K_a \approx 8 \times 10^{12} M^{-1}$）。我们的数据和代码可在 https://github.com/Zehong-Wang/MDForge 获取。  

MDForge: 稀疏模拟器反馈下的智能体分子动力学管线设计  
Zehong Wang¹, Yijun Ma¹, Connor R. Schmidt¹, Tianyi Ma¹, Weixiang Sun¹, Ziming Li², Xiaoguang Guo², Chuxu Zhang², Matthew J. Webber¹, Yanfang Ye¹,†  
¹圣母大学  
²康涅狄格大学  
†通讯作者 @nd.edu  

## 1 引言  
参见图注  
图1：MD 管线设计的三种范式。(a) 人类专家手动挑选每个阶段并迭代修改。(b) 现有的用于 MD 设计的 LLM 智能体调用固定的 MD 工具箱，无运行时间反馈。(c) MDForge 将管线作为代码生成，并通过 PRISM（一种多专家对每阶段诊断进行的辩论，返回类型化评审）进行优化。  

分子动力学（MD）模拟长期以来一直是原子级分辨率下研究分子行为的经典计算方法（Karplus and McCammon, 2002 (https://arxiv.org/html/2606.12916#bib.bib73); Hollingsworth and Dror, 2018 (https://arxiv.org/html/2606.12916#bib.bib74)）。通过积分第一性原理运动方程，MD 生成原子级轨迹，研究者可从中了解结合亲和力、构象系综、反应路径和材料性质。其中一些量只有通过湿实验室测量才能获得，且成本高昂、耗时巨大；其他量，如酶催化循环中出现的瞬态构象状态，则根本无法直接观测。这些特性使 MD 几十年来一直是生物学、药物发现和化学领域的中流砥柱（Behler, 2021 (https://arxiv.org/html/2606.12916#bib.bib75); Unke et al., 2021 (https://arxiv.org/html/2606.12916#bib.bib76)）。  
为新分子系统设计 MD 管线通常需要训练有素的科学家，新管线的产出相应有限（Mey et al., 2020 (https://arxiv.org/html/2606.12916#bib.bib77)）。自由能计算可说明这一点：它涉及结合姿势假设、力场参数化、平衡调度、采样协议、约束和估计器的联合规范。这些选择相互影响，且很少有通用选项：调整用于一类系统的管线几乎无法迁移，因为不同系统类型的主要物理机制不同（Mobley and Gilson, 2017 (https://arxiv.org/html/2606.12916#bib.bib82); Schindler et al., 2020 (https://arxiv.org/html/2606.12916#bib.bib83)）。  
最近 AI 驱动的分子预测器的兴起并未消除这一需求。数据驱动的预测器输出目标属性值（例如结合亲和力）（Merchant et al., 2023b (https://arxiv.org/html/2606.12916#bib.bib85); Ross et al., 2022 (https://arxiv.org/html/2606.12916#bib.bib86); Wang et al., 2026a (https://arxiv.org/html/2606.12916#bib.bib118); Ye et al., 2026 (https://arxiv.org/html/2606.12916#bib.bib119)），但并不产生 MD 那样的原子级轨迹，因此无法提供物理模拟所能提供的机理说明。其适用性也受限于训练所用的化学空间：模型对没有大型标注语料库的系统类别没有立足点（Wu et al., 2018 (https://arxiv.org/html/2606.12916#bib.bib78); Yang et al., 2019 (https://arxiv.org/html/2606.12916#bib.bib79)），且在训练分布之外的输入上，其预测会无声地退化（Bender and Cortés-Ciriano, 2021 (https://arxiv.org/html/2606.12916#bib.bib81); van Tilborg et al., 2022 (https://arxiv.org/html/2606.12916#bib.bib80)）。因此，MD 对于机理理解仍然不可或缺（Bottaro and Lindorff-Larsen, 2018 (https://arxiv.org/html/2606.12916#bib.bib84)），但为新系统设计其管线仍是一项专家任务。  
在这项工作中，我们旨在设计一个能够通过复现训练有素专家的工作来自动化 MD 设计的智能体 AI 系统。面对一个新分子系统，专家（Cournia et al., 2017 (https://arxiv.org/html/2606.12916#bib.bib62)）首先检查其化学性质、电荷、刚性和结合模式，这些观察结果决定了后续所有选择：力场家族、平衡调度、采样协议、约束方案和估计器。然后运行管线；专家读取其返回的诊断信息（发散轨迹、自由能收敛图、约束释放伪影），识别哪个子系统行为异常，并修改管线用于下一次试验。  
最近的一些 LLM 智能体旨在实现这种自动化。例如，MDCrow（Campbell et al., 2025 (https://arxiv.org/html/2606.12916#bib.bib43)）将通用 MD 工具集（力场设置、模拟、轨迹分析）包装成 LangChain 风格的工具调用（Yao et al., 2023 (https://arxiv.org/html/2606.12916#bib.bib9)）；MDAgent（Ma et al., 2026b (https://arxiv.org/html/2606.12916#bib.bib47)）通过一个记忆模块扩展了该模式，该模块复用先前任务中的参数选择和分析逻辑（Zhao et al., 2024 (https://arxiv.org/html/2606.12916#bib.bib12); Chen et al., 2024 (https://arxiv.org/html/2606.12916#bib.bib20)）；DynaMate（Guilbert et al., 2025 (https://arxiv.org/html/2606.12916#bib.bib41)）将相同的工具调用模式移植到结合自由能工作流中。然而，这些系统都没有完全匹配 MD 专家的做法。它们的工具调用类似于专家选择管线片段，但只能从固定工具箱中选择，限制了专家本可组合的内容。同样，它们都没有利用工作流返回的反馈，而正是这种反馈（尽管稀疏）是专家依赖来优化管线的。  
为应对这两个差距，我们提出 MDForge，一种由 LLM 驱动的智能体，它将 MD 管线设计框架化为在言语强化学习（Shinn et al., 2023 (https://arxiv.org/html/2606.12916#bib.bib8)）下的开放式代码生成（Wang et al., 2024a (https://arxiv.org/html/2606.12916#bib.bib11)）。代码生成匹配专家的实际动作空间，该空间不是预先注册的工具箱，而是新系统所需的任何内容。言语强化学习匹配专家的迭代习惯，每次试验的诊断信息驱动下一次管线。这一框架凸显了本文的核心技术挑战：构建一个能从非常少的反馈信号中学习的智能体。每个信号只有在完整的 MD 工作流运行后才到达，其 GPU 小时成本将每个任务限制在很小的试验预算内，对于智能体以典型方式迭代更新行为来说过于有限（Wang et al., 2026b (https://arxiv.org/html/2606.12916#bib.bib117); Chen et al., 2026 (https://arxiv.org/html/2606.12916#bib.bib40); Gupta et al., 2025 (https://arxiv.org/html/2606.12916#bib.bib1)）。  
MDForge 的核心是 PRISM（Process-Reward Interpretation via Subsystem Mediation，通过子系统介导的过程奖励解释），一种上下文内更新规则，它将少量的终端奖励转化为沿两个轴线的稠密、类型化的学习信号。首先，PRISM 利用 MD 管线的阶段特性（准备、平衡、生产采样、分析）：它从模拟器的中间输出中收集每阶段诊断信息，因此智能体在每个阶段边界都能收到反馈，而不仅仅在运行结束（Lightman et al., 2024 (https://arxiv.org/html/2606.12916#bib.bib21); Uesato et al., 2022 (https://arxiv.org/html/2606.12916#bib.bib26); Wang et al., 2024b (https://arxiv.org/html/2606.12916#bib.bib28)）。其次，PRISM 启动一个由物理学专家（力场、采样、分析）组成的小组来辩论每个诊断（Du et al., 2024 (https://arxiv.org/html/2606.12916#bib.bib15)），并产生类型化、可归因于子系统的评审，从而重塑 MDForge 的行为，揭示只有专家才能提供的物理解释。  
实验证明，MDForge 在三个 SAMPL 主客体结合自由能基准测试（Muddana et al., 2014 (https://arxiv.org/html/2606.12916#bib.bib4); Yin et al., 2017 (https://arxiv.org/html/2606.12916#bib.bib87)）（CB[7]、OAH 和 CBClip）上生成了与专家手工设计相当的管线。最佳的 AI 设计 CB[7] 管线应用于未见过的候选客体库时，发现了一种新型结合剂，经湿实验室竞争 NMR 确认为高亲和力（皮摩尔级）CB[7] 结合剂（$K_a \approx 8 \times 10^{12} M^{-1}$）。  

## 2 相关工作  
分子动力学。MDForge 建立在成熟的基于物理的 MD 技术栈之上，而不是与其中任何部分竞争：基于 BAR/MBAR 估计器的自由能微扰/热力学积分（Bennett, 1976 (https://arxiv.org/html/2606.12916#bib.bib95); Shirts and Chodera, 2008 (https://arxiv.org/html/2606.12916#bib.bib96); Mey et al., 2020 (https://arxiv.org/html/2606.12916#bib.bib77)）、成熟的模拟引擎（Eastman et al., 2017 (https://arxiv.org/html/2606.12916#bib.bib100); Abraham et al., 2015 (https://arxiv.org/html/2606.12916#bib.bib101); Case et al., 2023 (https://arxiv.org/html/2606.12916#bib.bib102)）以及标准的生物分子力场家族。最近的神经网络工作用学习组件替换了该栈的单独部分：机器学习力场（Behler, 2021 (https://arxiv.org/html/2606.12916#bib.bib75); Unke et al., 2021 (https://arxiv.org/html/2606.12916#bib.bib76)）、结构预测器（Jumper et al., 2021 (https://arxiv.org/html/2606.12916#bib.bib3)）和平衡采样器（Noé et al., 2019 (https://arxiv.org/html/2606.12916#bib.bib103)）。MDForge 将工作流本身自动化为可执行代码，因此设计空间是对现有工具集的程序合成，而不是固定管线模板的参数空间。  

自主科学智能体。LLM 驱动的科学智能体已将文献检索、假设提出和代码合成整合到可运行的发现管线中，涵盖化学、材料和生物学（Boiko et al., 2023 (https://arxiv.org/html/2606.12916#bib.bib37); Bran et al., 2024 (https://arxiv.org/html/2606.12916#bib.bib52); Lu et al., 2024 (https://arxiv.org/html/2606.12916#bib.bib39); Merchant et al., 2023a (https://arxiv.org/html/2606.12916#bib.bib53)）。MD 专用智能体已收敛于一种工具调用模式，在 LLM 控制下编排一个固定的引擎、力场和分析程序库（Campbell et al., 2025 (https://arxiv.org/html/2606.12916#bib.bib43); Ma et al., 2026b (https://arxiv.org/html/2606.12916#bib.bib47); Guilbert et al., 2025 (https://arxiv.org/html/2606.12916#bib.bib41); Chandrasekhar and Farimani, 2025 (https://arxiv.org/html/2606.12916#bib.bib44); Shi et al., 2025 (https://arxiv.org/html/2606.12916#bib.bib45)）。相反，MDForge 将 MD 管线设计视为开放式代码生成，延续程序合成智能体的谱系（Wang et al., 2024a (https://arxiv.org/html/2606.12916#bib.bib11); Romera-Paredes et al., 2024 (https://arxiv.org/html/2606.12916#bib.bib38)），运行在监督信号既稀疏（每次试验一个终端奖励）又昂贵（数 GPU 小时的 MD 执行）的机制中。扩展讨论见附录 A (https://arxiv.org/html/2606.12916#A1)。  

## 3 问题设定  
任务。给定一个目标系统类别 $\mathcal{T}=\{s_1,\ldots,s_M\}$，包含 $M$ 个相关的分子系统及其目标可观测属性 $y$（例如结合自由能）的实验参考值 $\{y_{\exp}(s_m)\}$，智能体生成一个可执行的 MD 管线 $\pi \in \Pi$，该管线应用于 $\mathcal{T}$ 时，最小化每个系统的平均预测误差 $\mathcal{L}(\pi)=\frac{1}{M}\sum_m |\hat{y}_\pi(s_m)-y_{\exp}(s_m)|$。  

POMDP。我们将设计循环建模为 $\mathcal{M}=(\mathcal{S},\mathcal{A},\mathcal{O},T,R,\gamma)$：状态 $\mathcal{S}$ 是设计历史（$\pi_{1:t}, D_{\pi_{1:t}}$），包含尝试过的管线及其阶段级诊断信息；动作空间 $\mathcal{A}=\Pi$ 是开放式可执行程序空间，这些程序通过四个规范阶段（准备、平衡、生产、分析）生成 MD 工作流；观测 $\mathcal{O}\subseteq\mathcal{V}$ 是模拟器返回的自然语言文档；转移 $T$ 是确定的，由物理学和工具链控制；奖励 $R$ 仅在时域结束时实现，为 $r^*_\pi=-\mathcal{L}(\pi)$；折扣因子 $\gamma=1$。因此，奖励既稀疏（每个管线一个事件）又昂贵（每次试验需要一个 GPU 小时的生产运行）。因此，我们打算使用言语强化学习来解决该问题。  

###### 定义 1（言语强化学习）。令 $\mathcal{V}$ 为自然语言字符串空间。如果一个 POMDP 的动作空间和观测空间均满足 $\mathcal{A},\mathcal{O}\subseteq\mathcal{V}$，并且策略是参数固定的 LLM $\theta$ 作用于文本上下文 $\mathcal{C}_t\in\mathcal{V}$，则称其为言语的：
$$
\pi_{t+1} \sim \mathrm{LLM}_\theta(\,\cdot\mid\mathcal{C}_{t+1}), \tag{1}
$$
$$
\mathcal{C}_{t+1} = \mathrm{Update}(\mathcal{C}_t,\pi_t,o_t,r_t), \tag{2}
$$
其中 $\mathrm{Update}$ 是一个 LLM 调用，将每次试验的结果 $(o_t,r_t)$ 折叠回上下文。  

## 4 MDForge  
我们介绍 MDForge，即实现言语强化学习以自动进行分子动力学工作流设计的 LLM 智能体。框架如图 2 (https://arxiv.org/html/2606.12916#S4.F2) 所示，完整协议见附录 B (https://arxiv.org/html/2606.12916#A2)。  

参见图注  
图 2：MDForge 概览。(a) 以结合亲和力预测为目标自动化 MD 设计，在 SAMPL CB[7]、OAH 和 CBClip 测试床上实例化。(b) 一个代码智能体读取上下文包 $\mathcal{C}_t=\{T,\pi_t,K_t,H_t\}$（任务、当前管线（类型化代码）、评审集、标题度量试验历史），并通过沙箱生成可执行管线。执行经过 $K=4$ 个规范阶段（准备、平衡、生产、分析），产生每阶段诊断 $D_\pi$。一个 PRISM 小组在运行前后评审 $\pi$，生成类型化评审 $c_\text{pre}, c_\text{post}$，这些评审反馈到 $\mathcal{C}_{t+1}$ 作为上下文快速权重更新。(c) $J=3$ 个专家（力场、采样、分析）

MDForge：稀疏模拟器反馈下的智能体分子动力学流程设计

相似文章

ToolMol：用于多目标药物发现的进化式智能体框架

先探后编：基于探针引导的LLM代理在基于结构的药物设计中的分子优化

用于原子间势主动学习的Stein核化分子动力学

基于智能体工具规划的分子先导优化

可控分子生成基础模型

提交意见反馈