EvoMD-LLM:学习反应性分子动力学中物种演化的语言
摘要
EvoMD-LLM 将反应性分子动力学轨迹重构为符号时间序列,使 LLM 能够通过微调和时间支架对物种随时间的演化进行建模,最高可达 66.14% 的准确率并提供可解释的预测。
arXiv:2605.29394v1 公告类型:新
摘要:虽然大型语言模型(LLM)在静态科学推理方面表现出色,但它们难以模拟动态物理过程的时间结构。我们提出 EvoMD-LLM(进化分子动力学大型语言模型),这是一个将物种级分子动力学重构为符号时间语言建模问题的框架。反应性 MD 轨迹被离散化为分子事件序列,其中每个标记代表一种化学物种及其持续时长,使得标准的自回归 LLM 能够通过高效微调来学习随时间的组合演化。EvoMD-LLM 的一个关键组成部分是时间支架,它将事件持续时间视为显式的语言标记,并作为一种结构化归纳偏置,与传统的序列建模方法相比,显著减少了无效或幻觉的分子输出。我们在多个时间预测任务上评估了 EvoMD-LLM,最高达到 66.14% 的准确率,并且持续优于序列神经网络和基于语言的基线方法。除了定量改进之外,我们定性观察到,该模型能够通过融入相关化学知识为其自身预测生成解释,尽管它并未接受过配对的轨迹-解释数据的明确监督。这些结果表明,符号时间语言建模为将 LLM 嵌入动态物理模拟提供了一个有效的框架。
查看缓存全文
缓存时间: 2026/05/29 09:18
# EvoMD-LLM:学习反应性分子动力学中物种进化的语言
来源:https://arxiv.org/html/2605.29394
Zhichen Tang¹, Zhengzheng Dang¹, Yulin Chen¹, Jixin Wu¹, Haiwen Li¹, Yanming Wang²
¹上海交通大学致远学院,上海,中国
²上海交通大学未来技术学院,上海,中国
\{tzc233, dangzzsjtu, chenyulin, jixin\_wu, lihaiwen, yanming\.wang\}@sjtu\.edu\.cn
###### 摘要
尽管大语言模型(LLMs)在静态科学推理中表现出色,但在建模动态物理过程的时间结构方面仍有不足。我们提出了 EvoMD-LLM(进化分子动力学大语言模型),该框架将物种级分子动力学重新定义为一种符号化的时间语言建模问题。反应性分子动力学轨迹被离散化为分子事件序列,其中每个标记代表一种化学物种,并附加其持续时长,从而使得标准自回归大语言模型能够通过高效微调来学习随时间变化的复合演化。EvoMD-LLM 的一个关键组件是时间支架(temporal scaffolding),它将事件时长视为显式的语言标记,并作为一种结构化的归纳偏置,相比于传统的序列建模方法,显著减少了无效或虚构的分子输出。我们在多个时间预测任务上评估了 EvoMD-LLM,最高达到 66.14% 的准确率,并持续优于序列神经网络和基于语言的基线模型。除了定量改进,我们还定性观察到,该模型能够通过融入相关化学知识为其自身预测生成解释,尽管它并未经过显式的轨迹-解释配对数据监督。这些结果表明,符号化的时间语言建模为将大语言模型扎根于动态物理仿真提供了一种有效框架。
**EvoMD-LLM:学习反应性分子动力学中物种进化的语言**
Zhichen Tang¹, Zhengzheng Dang¹, Yulin Chen¹, Jixin Wu¹, Haiwen Li¹, Yanming Wang††感谢通讯作者。²
¹上海交通大学致远学院,上海,中国
²上海交通大学未来技术学院,上海,中国
\{tzc233, dangzzsjtu, chenyulin, jixin\_wu, lihaiwen, yanming\.wang\}@sjtu\.edu\.cn
## 1 引言
参见图注
**图1:**EvoMD-LLM 的概念概述。该框架将分子动力学轨迹解释为结构化序列(节点:物种;边:变换),通过四项预测任务重建反应路径。
大语言模型(LLMs)与分子表示的融合已成为人工智能科学领域中的一个有前景方向。最近的研究范式已成功将静态分子编码(如 SMILES 字符串 [Cavanagh 等人,2024](https://arxiv.org/html/2605.29394#bib.bib20))与自然语言对齐,使大语言模型能够支持从分子性质预测 [Chithrananda 等人,2020](https://arxiv.org/html/2605.29394#bib.bib9) 到检索增强化学推理 [Chen 等人,2025](https://arxiv.org/html/2605.29394#bib.bib13) 等一系列任务。然而,现有大多数方法要么在静态分子表示上操作,要么依赖外部工具进行推理 [Boiko 等人,2023](https://arxiv.org/html/2605.29394#bib.bib70)。这限制了它们在随时间演化的物理系统中的应用——这些系统通过创建、持续和转化事件序列而演化。因此,使大语言模型能够建模时间物理过程仍然是人工智能科学领域的一个根本性挑战 [Wigh 等人,2022](https://arxiv.org/html/2605.29394#bib.bib23)。
分子动力学(MD)模拟通过记录时间分辨的原子运动 [Alder 和 Wainwright,1957](https://arxiv.org/html/2605.29394#bib.bib24) 提供了时间物理演化的自然描述。然而,原始分子动力学轨迹由高频连续坐标组成,这与语言模型的离散符号标记空间不兼容。新兴的时间序列基础模型 [Ansari 等人,2024](https://arxiv.org/html/2605.29394#bib.bib71) 仍无法应对这一挑战,因为它们的数值量化方案破坏了化学物种固有的组合语义和离散身份。因此,将分子动力学模拟直接与大语言模型对齐面临一个关键抽象挑战:如何将连续分子演化表示为适合语言建模的符号序列。
现有的基于学习的分子动力学轨迹方法主要集中在非反应性或弱反应性系统的结构动力学上,例如蛋白质折叠 [Tsai 等人,2020](https://arxiv.org/html/2605.29394#bib.bib67);[Bera 和 Mondal,2025](https://arxiv.org/html/2605.29394#bib.bib68);[Murtada 等人,2024](https://arxiv.org/html/2605.29394#bib.bib25);[Hussein Murtada 等人,2025](https://arxiv.org/html/2605.29394#bib.bib26),并且不适用于以化学物种离散变化为特征的反应性过程。
为弥补这一空白,我们引入了 **EvoMD-LLM**(进化分子动力学大语言模型),该框架将物种级分子动力学重新定义为一种受限的生成式语言任务。我们提出了一种模态对齐方案,将连续轨迹转换为离散标记,其中时长作为每种化学物种的显式语义修饰符。这种表示使得标准自回归大语言模型能够通过微调直接内化化学演化的“语法”,无需外部模拟器或专门架构。EvoMD-LLM 的一个关键组件是时间支架(temporal scaffolding),它将事件时长显式编码为语言标记。虽然时长编码在音乐和语音等领域已有成熟应用 [Huang 等人,2018](https://arxiv.org/html/2605.29394#bib.bib72);[Ren 等人,2019](https://arxiv.org/html/2605.29394#bib.bib73),但 EvoMD-LLM 引入了一个根本性转变:将时间标记重新定义为动力学稳定性的语义代理。这种结构化的归纳偏置使模型能够内化底层反应语法并抑制物理上无效的转变,可视为连续轨迹的一种语义压缩形式,类似于数据压缩中的经典游程编码(RLE)方案 [Sayood,2017](https://arxiv.org/html/2605.29394#bib.bib1)。实证消融研究([第3.6节](https://arxiv.org/html/2605.29394#S3.SS6))表明,这一设计显著提高了预测精度,并减少了无效或虚构的分子输出。
我们在一个全面的时间预测任务套件上评估了 EvoMD-LLM,如图1所示。除了定量指标,我们显著观察到模型展现出涌现性解释行为:尽管缺乏显式监督,它仍能自发地为动力学稳定性生成合理的物理理由。这些结果表明,符号化时间语言建模是学习物种级动力学的有效框架。
我们的主要贡献总结如下:
- **EvoMD-LLM 框架**:我们提出了一种语言建模框架,将物种级分子动力学重新定义为符号化事件序列,使标准自回归大语言模型能够对反应性系统中的时间演化进行建模。
- **基于时长标记的时间支架**:我们通过将事件持续时长显式编码为语言标记引入时间支架。这种结构化的归纳偏置显著提高了预测精度并减少了无效分子输出,广泛的消融研究证明了这一点。
- **统一的时间预测公式**:我们证明,单个指令微调的语言模型可以灵活支持多种时间预测任务,包括前向预测和后向推理,而无需任务特定的架构。
## 2 方法
我们提出 EvoMD-LLM,将分子演化视为一种具有自身因果和持续语法(grammar of causality and persistence)的外语。如图2所示,我们的框架通过四个阶段流水线运作:(1) 动态模态对齐;(2) 结构指令格式化;(3) 异构任务集成;(4) 模型训练与推理。在本节中,我们详细阐述理论公式和关键算法组件。
### 2.1 问题形式化
我们通过将分子动力学模拟重新定义为结构化符号文本生成问题,使大语言模型能够学习化学反应的动力学。一个标准分子动力学模拟产生原始轨迹 \(\mathcal{T}_{\text{raw}}\),记录每个时间步 \(\tau\) 的原子位置 \(\mathbf{R}\) 和动量 \(\mathbf{P}\):
\[
\mathcal{T}_{\text{raw}} = \{ (\mathbf{R}(\tau), \mathbf{P}(\tau)) \mid 0 \leq \tau \leq T \}. \tag{1}
\]
尽管物理上完整,但这类轨迹维度高且受热噪声主导,掩盖了长期反应模式。为获得适合语言建模的表示,我们应用变换 \(\Phi\),将原始轨迹映射到离散的分子状态序列:
\[
\mathcal{X} = \Phi(\mathcal{T}_{\text{raw}}) = \{ (m_i, \Delta t_i) \}_{i=1}^{N}, \tag{2}
\]
其中 \(N\) 表示变换序列中离散事件的数量,\(m_i \in \mathcal{V}\) 是来自化学词汇表 \(\mathcal{V}\) 的分子式标记,\(\Delta t_i \in \mathbb{Z}^+\) 是该事件以皮秒(ps)为单位的持续时长。这种抽象压制了高频原子涨落,同时保留了化学变换的因果序列。
与标准文本生成中标记等距不同,化学演化是一种不规则采样的时间序列。我们将该序列直接视为自然语言。这使得我们能够使用标准的自回归交叉熵损失训练模型,无需专门的回归架构。
##### 生成建模目标。
我们将反应建模形式化为条件序列生成。给定上下文序列 \(\mathbf{x}\) 和指令 \(\mathcal{I}\),模型根据以下分解生成目标序列 \(\mathbf{y}\):
\[
P(\mathbf{y} \mid \mathbf{x}, \mathcal{I}) = \prod_{j=1}^{|\mathbf{y}|} P(y_j \mid \mathbf{y}_{BO_{\min}},从而得到用于下游物种提取的逐帧连通性。具体而言,每个分子动力学帧被转换为无向图 \(G = (V, E)\),其中原子为节点,有效键为边;然后我们应用深度优先搜索(DFS)识别连通分量,每个分量被序列化为一个分子式。
基于这些快照,我们的框架通过将分子式定义为原子语义单元,将连续演化投影到离散事件空间中。与标准自然语言处理中通常将化学字符串标记为子词单元(例如 SMILES 字符 [Cavanagh 等人,2024](https://arxiv.org/html/2605.29394#bib.bib20))不同,我们将每个不同的分子式视为一个原子语义单元。这保持了化学身份的完整性,使大语言模型能够推理物种级变换而非字符级统计。
我们将有效分子事件 \(\mathcal{E} = (m, \Delta t)\) 定义为一个元组,包含分子物种 \(m\) 及其持续时长 \(\Delta t\)。为从瞬态热涨落中提炼出具有化学意义的状态,我们将 \(\Delta t < \tau_{\min}\) 的事件视为高频噪声,仅保留满足 \(\tau_{\min} \leq \Delta t \leq \tau_{\max}\) 的带通滤波事件,其中 \((\tau_{\min}, \tau_{\max}) = (10, 500)\) 皮秒。下界截止去除小于 10 皮秒的涨落(主要反映键振动而非化学上有意义的状态变化),上界截止排除过度持续的平稳段(主导原始轨迹并掩盖感兴趣的中级反应动力学)。该操作有效地从高频噪声中分离出稳定的反应中间体,同时排除了超短寿命振动和过度持续的平稳状态。有关原始数据集规模和过滤统计的详细信息,请参见附录 A([第A节](https://arxiv.org/html/2605.29394#A1))。
##### 结构化上下文构建。
为启用自回归预测,使用滑动窗口方法将离散事件流分割为结构化的输入-输出对。每个训练示例由一个历史上下文窗口(3-5 个事件)和一个目标未来事件组成。原始反应数据呈现长尾分布:少数稳定物种占主导,而关键过渡态则稀有。为避免基于频率的平凡预测,我们对分子身份和时间区间进行二维分层采样,其中时间区间是将事件按短寿命、中寿命和长寿命分组的离散时长区间。在构建最终训练窗口之前,每个层被采样至更均匀的计数分布,从而改善对快速中间体和稳定产物的覆盖。数据演化、物种分布以及平衡效果的详细可视化见附录 A([第A节](https://arxiv.org/html/2605.29394#A1),图5)。
### 2.3 时间支架
标准 Transformer 虽然擅长序列排序,但对可变时间间隔不敏感。为弥补这一差距,EvoMD-LLM 通过将物种标记与时长标记(\(\Delta t_i\))交错来实现时间支架,将这一策略重新解释为用于语义轨迹压缩的游程编码(RLE)的神经实现 [Sayood,2017](https://arxiv.org/html/2605.29394#bib.bib1)。虽然该设计在结构上与可变时长模态(如 Music Transformer 中的音符持续 [Huang 等人,2018](https://arxiv.org/html/2605.29394#bib.bib72) 和 FastSpeech 中的音素对齐 [Ren 等人,2019](https://arxiv.org/html/2605.29394#bib.bib73))相似,但 EvoMD-LLM 引入了一种新颖的动力学到语义映射(Kinetic-to-Semantic Mapping),将时长视为动力学稳定性的内在指标。这提供了一种结构化的归纳偏置,强制执行物理一致性并通过区分热力学稳定状态和瞬态中间体来抑制“动力学幻觉”。该设计的功能必要性得到了消融研究的实证验证([第3.6节](https://arxiv.org/html/2605.29394#S3.SS6)),其中移除时长标记导致 1 步准确率急剧下降 11.67%(从 66.14% 降至 54.47%)。
这种公式有效地将连续物理时间与逻辑反应序列解耦,使模型能够跳过冗余噪声,直接跨越化学上有意义的时间尺度进行推理。
### 2.4 结构化指令格式化
为将交错事件序列转换为训练样本,我们采用结构化指令微调范式。如图2(b)所示,我们设计了一个领域特定的模板,对生成输出施加严格的句法约束。该构建由两个组件组成:
1. **系统上下文(语义定义)**:我们利用系统提示定义模型作为“科学模拟器”的角色。至关重要的是,该提示建立了统一词汇表的语义映射,明确指示模型输出必须交替出现分子相似文章
什么让大模型成为优秀优化器?——LLM引导演化搜索的轨迹分析
对15个大模型在8项任务上的大规模研究表明,优化成功的关键在于保持局部化搜索轨迹,而非初始解题能力或解的新颖性。
刻意进化:基于智能体推理的样本高效符号回归与大语言模型
刻意进化(DE)是一个智能体框架,通过将候选生成与搜索控制解耦,并结合自适应算子、结构诊断工具和反思性记忆,显著提升了基于大语言模型的符号回归效果,仅需标准样本预算的40%即可取得更优结果。
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。
SMCEvolve:基于序贯蒙特卡洛演化的原则性科学发现
SMCEvolve 提出了一种原则性框架,用于 LLM 驱动的程序演化,通过将其重新表述为使用序贯蒙特卡洛从奖励倾斜分布中采样。它提供了收敛保证,并在多个科学发现基准测试中优于现有方法。