可控分子生成基础模型

arXiv cs.LG 2026/05/18 04:00 论文

摘要

提出CoMole，一种基于基序感知图扩散和强化学习的可控分子生成基础模型，在材料和药物发现基准测试中实现了卓越的可控性。

arXiv:2605.15354v1 公告类型：新摘要：尽管基础模型在语言和视觉领域取得了成功，分子图生成仍然缺乏一个统一的框架来处理异构设计任务并具备可靠的可控性。虽然强化学习（RL）为任务特定优化提供了一种自然的训练后机制，但将其应用于图生成模型受到巨大的原子级动作空间和化学无效中间状态的阻碍。我们提出了**Co**ntrollable **Mole**cular Generative Foundation Models (CoMole)，该模型基于统一的基序感知图扩散流水线构建。通过学习基序感知图空间，CoMole将预训练的结构先验转移到可控生成中，其中RL在化学上有意义的决策上优化条件反向策略。我们在理论上表征了原子级RL的瓶颈，并证明了基序感知策略优化的合理性。在涵盖材料和药物发现的三个异构基准测试中，CoMole在所有九个目标上的可控性排名第一，相对于最强基线将MAE降低了高达48.2%，并且在不使用基于规则的修正或事后过滤的情况下保持了0.94以上的有效性。我们进一步证明，CoMole通过仅优化任务嵌入而冻结生成器，将可控性转移到未见属性，其性能与强大的任务特定基线竞争。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:40

# 可控分子生成基础模型

**来源**: <https://arxiv.org/html/2605.15354>

**朱逸涵** 圣母大学 yzhu25@nd\.edu  
**刘宇涵** 圣母大学 yliu57@nd\.edu  
**李伟江** 圣母大学 wli27@nd\.edu  
**罗腾飞** 圣母大学 tluo@nd\.edu  
**蒋萌** 圣母大学 mjiang2@nd\.edu  

###### 摘要

尽管基础模型在语言和视觉领域取得了成功，分子图生成仍然缺乏一个统一的框架来应对异构设计任务并具备可靠的可控性。虽然强化学习（RL）为任务特定优化提供了一种自然的训练后机制，但将其应用于图生成模型却受到庞大的原子级动作空间和化学上无效的中间状态的阻碍。我们提出了**可控分子生成基础模型（CoMole）**，构建了一个统一的基序感知图扩散管线。通过学习基序感知图空间，CoMole将预训练的结构先验迁移到可控生成中，其中RL优化基于化学有意义决策的条件反向策略。我们从理论上刻画了原子级RL的瓶颈，并论证了基序感知策略优化的合理性。在横跨材料和药物发现的三个异构基准测试中，CoMole在所有九个目标上排名第一，可控性指标平均绝对误差（MAE）相对于最强基线最多降低48.2%，并且无需基于规则的修正或事后过滤即可保持0.94以上的有效性。我们进一步证明，CoMole通过仅优化任务嵌入而冻结生成器，可将可控性迁移到未见过的属性上，其性能与针对这些任务训练的强基线相当。

## 1 引言

分子逆设计——生成具有所需功能性质的结构——是科学发现中的核心挑战，其应用涵盖生物医学和材料科学。最近的图扩散方法显著推动了分子生成的发展（Vigna等人，2023；Huang等人，2023；Liu等人，2024a）。然而，这些方法在很大程度上仍然是任务特定的，并且对目标性质的可控性有限（Qin等人，2025；Liu等人，2025）。在语言和视觉领域，基础模型范式已通过大规模预训练（PT）、监督微调（SFT）和基于强化学习的对齐（RL Alignment）实现了强大的生成系统（Bommasani等人，2022；Zhang等人，2023）。对于分子逆设计，大量未标注的化学数据与标签稀缺的下游任务并存，这促使我们开发统一的分子生成基础模型，以弥补当前方法与实际逆设计需求之间的可控性差距。

然而，将这一范式实例化为原子级图扩散暴露了一个核心瓶颈：除了原子级扩散RL中观察到的轨迹坍缩（Dulac-Arnold等人，2015；Liu等人，2024b）之外，低层原子级动作的广阔空间与化学家在分子设计中通常用于制定结构-性质基本原理的化学上有意义的子结构对齐不良。如图1所示，原子级RL在将结构变化与性质奖励关联之前，常常无法通过局部编辑构建可靠的子结构。这种脆弱性源于每个动作必须联合协调原子类型、键和化合价约束。一次无效的选择可能将轨迹推离可行的化学流形，使后续去噪难以恢复。例如，我们设计的原子级变体将无规则有效性从0.95降至0.07，并将气体渗透性控制MAE恶化了2.68倍（表4）。

为了克服这一瓶颈，我们使用基序感知的决策空间重新参数化图扩散RL。它在保留局部结构灵活性的同时，引入环、官能团和数据驱动的基序作为更高层次的决策。由于分子性质取决于子结构及其复杂相互作用，该空间将RL从脆弱的原子级构建路径提升为化学上有意义的决策（例如，连接一个苯环），使得对生成结构的奖励能够更直接地归因于与性质相关的动作。这种抽象还通过保持内部一致的子结构并降低无效原子级编辑导致轨迹破坏的风险，促进了化学有效性。我们的设计不仅仅是主要将基序用作生成先验（Jin等人，2019；Kong等人，2022），还利用它们来稳定RL优化以实现可控生成。

我们提出了**CoMole**，据我们所知，这是**首个用于异构逆设计的可控分子生成基础模型家族**。核心思想是通过优化RL中基于化学有意义决策的条件反向策略，将预训练的结构知识迁移到可控逆设计中。具体而言，CoMole学习了一个基于节点对编码（NPE）的分词器（Liu等人，2025），该分词器保留单原子和附着级别信息，同时将预训练分布中频繁出现的相邻单元合并为基序感知的图状态。在此空间上，图扩散变压器通过三个阶段进行训练：PT学习可迁移的结构先验，SFT引入多属性的条件，RL将条件反向扩散策略与终端目标性质奖励对齐。在正文中，我们使用近端策略优化（PPO）实例化RL对齐，替代策略优化目标在附录D.4.2中讨论。我们从理论上表征了原子级RL的结构瓶颈，并论证了基序感知策略优化的合理性。实证上，我们在三个材料和药物发现基准上评估了CoMole，这些基准涵盖数值和类别条件。在所有九个目标上，CoMole在可控性方面排名第一：在两个聚合物基准上，相对于最佳基线，MAE降低超过44%。在小分子任务上，它将FreeSolv的MAE降低了13.1%，并在BACE分类上实现了1.0的准确率。这些增益是在无需基于规则的修正或事后过滤的情况下保持0.94以上的有效性取得的。我们进一步证明，通过仅学习任务嵌入而冻结生成器，CoMole可将可控性迁移到未见过的属性目标上，其性能与在这些目标上直接训练的基线相当。这些结果表明，我们的设计学习了可迁移的结构-性质知识，支持跨异构逆设计任务的可控生成。

<figure>  
<figcaption>图1：基序感知的RL是训练可控分子生成基础模型的关键阶段。原子级RL在庞大、低级的图编辑空间上遭受轨迹坍缩和脆弱的信用分配，而基序感知的RL将终端奖励归因于化学上有意义的决策，稳定策略更新。</figcaption>  
</figure>

## 2 预备知识

##### 符号说明。 设 \(x \in \mathcal{M}_{\mathrm{val}}\) 为化学上有效的分子图，\(\phi\) 为学习得到的图分词器。该分词器将 \(x\) 映射为基序图 \(z_0 = \phi(x) \in \mathcal{Z}_0\)，该图作为扩散生成和RL后训练的基序状态。对于条件生成，\(c = (k, y^\star) \in \mathcal{C}\) 表示目标条件，其中 \(k\) 为任务标识，\(y^\star\) 为目标值或标签。我们用 \(\mathsf{D}\) 表示经验训练分布。

### 2.1 基序图分词

我们遵循DemoDiff（Liu等人，2025）引入的节点对编码（NPE）算法，从预训练数据集中学习词表（附录C.2）。所得基序图的节点是原子不相交的词表单元，包括单原子、保留的环单元以及数据驱动的合并子结构作为更高层次的基序。该图还存储基序间的键标签和方向性的附着位置标签，以实现无损重构。由于基序图的大小可变，我们将其填充到固定数量的基序槽位，并将每个状态表示为 \(z = (X, E, P, m)\)，其中 \(m_i = 1\) 表示槽位 \(i\) 处于激活状态。变量 \(X_i\) 编码槽位 \(i\) 处的基序类型。对于激活的基序对，\(E_{ij} = E_{ji}\) 表示对称的分类键标签，包括无键类别。\(P_{ij}\) 表示从基序 \(i\) 到基序 \(j\) 的方向性附着位置标签。没有附着关系的定向对使用空附着位置标签。\(m\) 从大小先验中采样一次，并在整个生成过程中固定（参见附录A.2）。当不会引起混淆时，我们省略 \(m\) 而写作 \(z = (X, E, P)\)。

### 2.2 基于图扩散变压器的分子设计

给定基序图 \(z_0 = (X_0, E_0, P_0)\)，我们对基序状态 \(z_t = (X_t, E_t, P_t)\) 执行离散扩散。前向噪声化过程为 \(q(z_{1:T} \mid z_0) = \prod_{t=1}^T q(z_t \mid z_{t-1})\)，该过程逐步损坏基序类型、键类型和附着位置标签。设 \(q_t(z_t \mid z_0)\) 表示在时间步 \(t\) 处的诱导边际分布。反向过程从先验 \(p(z_T)\) 开始，并由图扩散变压器参数化：\(p_\theta(z_{0:T} \mid c) = p(z_T) \prod_{t=1}^T \widetilde{p}_\theta(z_{t-1} \mid z_t, t, c)\)。对于无条件预训练，省略 \(c\)。在每个反向步骤中，去噪器预测分布 \((\hat{X}_0, \hat{E}_0, \hat{P}_0) = f_\theta(z_t, t, c)\)，该分布通过首先预测基序状态 \(z_0 = (X_0, E_0, P_0)\) 来参数化 \(\widetilde{p}_\theta(z_{t-1} \mid z_t, t, c)\)。模型使用掩码去噪目标进行训练：\(\mathcal{L}_{\mathrm{diff}}(\theta) = \mathbb{E}_{(z_0, c) \sim \mathsf{D},\ t \sim \mathrm{Unif}([T]),\ z_t \sim q_t(\cdot \mid z_0)}\left[ \lambda_X \mathrm{CE}_X + \lambda_E \mathrm{CE}_E + \lambda_P \mathrm{CE}_P \right]\)。这里 \(\mathrm{CE}_X\)、\(\mathrm{CE}_E\) 和 \(\mathrm{CE}_P\) 分别是针对激活基序节点、基序间边和定向基序对的掩码交叉熵损失。详细说明见附录A.3。

## 3 可控分子生成基础建模

根据第2节，CoMole通过逆转任务条件的基序图扩散过程来生成分子。第3.1节将PPO公式化为反向轨迹上的优化，第3.2节分析为什么我们的基序感知设计优于原子级RL。

### 3.1 将反向扩散过程学习为策略

给定条件 \(c\)，反向扩散通过去噪 \(z_T\) 生成 \(z_0\) 来产生图。由于中间噪声图难以用性质预测器可靠评估，我们只对最终图施加奖励。因此，我们将反向扩散建模为有限时域终端奖励马尔可夫决策过程（MDP），并在采样轨迹上优化去噪策略。

##### MDP形式化。 我们将反向过程视为一个时域 \(H = T\) 的MDP。给定目标条件 \(c\)，在MDP步骤 \(h = 0, \dots, T-1\)，状态 \(s_h = (z_{T-h}, T-h, c)\) 包含当前噪声基序图、时间步和条件，动作是下一个反向状态 \(a_h = z_{T-h-1}\)。在RL训练期间，每次rollout从条件分布 \(c \sim \mu_{\mathrm{RL}}\) 中采样，并采样 \(z_T \sim p(z_T)\)，从 \(s_0 = (z_T, T, c)\) 开始，结束于 \(s_T = (z_0, 0, c)\)。策略采样 \(a_h\) 后，下一个状态确定性地更新为 \(s_{h+1} = (a_h, T-h-1, c)\)，因此唯一的随机决策是单步反向核：\(\pi_\theta(a_h \mid s_h) = \widetilde{p}_\theta(z_{T-h-1} \mid z_{T-h}, T-h, c)\)。（1）尽管 \(a_h\) 是一个结构化的基序图动作，但 \(\pi_\theta(a_h \mid s_h)\) 分解为基序、键和附着位置变量的乘积，使得RL的对数概率计算可行。显式分解见附录A.4。

##### 终端分子奖励。 设 \(x_{\mathrm{gen}} = \mathrm{Dec}(z_0)\) 为从最终反向状态解码得到的分子。对于任务 \(k\)，设 \(\hat{o}_k(x)\) 为预测器输出，并定义目标差异 \(d_c(x) := \ell_k(\hat{o}_k(x), y^\star)\) 对于有效分子。这里 \(\ell_k\) 是任务特定的，例如回归的绝对误差或二分类的绝对概率标签差。我们使用结合有效性和目标满足度的终端奖励：\(R(z_0; c) = w_{\mathrm{val}} r_{\mathrm{val}}(x_{\mathrm{gen}}) + (1 - w_{\mathrm{val}}) r_{\mathrm{prop}}(x_{\mathrm{gen}}; c), \quad w_{\mathrm{val}} \in [0,1]\)。（2）其中
\[
r_{\mathrm{val}}(x) = \begin{cases} 1, & x \in \mathcal{M}_{\mathrm{val}}, \\ -1, & x \notin \mathcal{M}_{\mathrm{val}}, \end{cases} \quad
r_{\mathrm{prop}}(x; c) = \begin{cases} g_k(d_c(x)), & x \in \mathcal{M}_{\mathrm{val}}, \\ 0, & x \notin \mathcal{M}_{\mathrm{val}}. \end{cases}
\]
（3）对于回归任务，我们使用 \(g_k(d) = \exp[- (d / \sigma_k)^2]\)，其中 \(\sigma_k > 0\)。对于二分类任务，我们设 \(g_k(d) = 1 - d\)，因此 \(r_{\mathrm{prop}}\) 等于预测器分配给目标标签的概率。因此，\(R(z_0; c) \in [-w_{\mathrm{val}}, 1]\)。

##### 策略优化。 给定rollout分布 \(\mu_{\mathrm{RL}}\)，RL目标为：
\[
J(\pi_\theta) = \mathbb{E}_{c \sim \mu_{\mathrm{RL}}} \mathbb{E}_{\tau = (z_T, \dots, z_0) \sim p_{\pi_\theta}(\cdot \mid c)} \left[ R(z_0; c) \right].
\]
（4）我们优化（4）...

可控分子生成基础模型

相似文章

通过口袋条件扩散和属性感知优化生成可开发的3D分子

基因表达指导的联合控制生成式模型用于精准分子设计

Sesame: 通过空间密度图条件的结构感知分子生成

ToolMol：用于多目标药物发现的进化式智能体框架

新AI工具可生成数百万种新分子

提交意见反馈