Sesame: 通过空间密度图条件的结构感知分子生成

arXiv cs.LG 论文

摘要

本文介绍了Sesame,一个基于扩散的分子生成模型,该模型通过空间密度图对部分分子结构和蛋白质口袋进行条件化,从而实现从头生成和片段条件的先导化合物优化,用于药物设计。

arXiv:2606.23856v1 公告类型:新 摘要:用于药物设计的生成分子模型是一个充满希望的方向,目前有许多活跃的研究。在计算药物设计的下一阶段,这类模型需要理解小分子结构和蛋白质-配体相互作用,并且需要具备从头生成分子的机制。整合每个特征都带来了关键挑战。同样重要但常被视为次要的是,从化学家提供的支架或片段等部分起点生长分子的能力,这是先导化合物优化的核心操作。我们提出了Sesame(用于结构感知分子引擎的空间Evoformer),一个基于扩散的分子生成模型,利用新颖的空间pairformer模块,对部分分子结构和周围蛋白质口袋进行条件化,这两者都表示为连续空间密度图。这个单一的条件化机制同时支持从头生成和片段条件的先导化合物优化,让药物化学家将先导化合物修剪成支架,然后让Sesame以富有成效的方式生长它。除了这个模块,我们还引入了一个用于联合去噪原子类型、键类型和位置的扩散框架,以及一个轨迹微调方案,该方案在模型自身的采样展开上进行训练,以提高生成质量。Sesame在大量仅配体以及蛋白质-配体数据集上进行训练。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:49

# Sesame:基于空间密度图条件的结构感知分子生成
来源:https://arxiv.org/html/2606.23856
Konstantin Yatsenko, Arvind Thiagarajan Tessel Biosciences, Inc., 750 Main Street, Cambridge, MA 02139

###### 摘要

用于药物设计的生成式分子模型是一个充满希望且研究活跃的方向。在计算药物设计的下一阶段,这类模型需要理解小分子结构与蛋白质-配体相互作用,并具备从头生成分子的能力。整合每一项功能都带来了严峻挑战。同样重要但常被视为次要的,是从部分起点——化学家提供的骨架或片段——出发进行分子生长,这是先导化合物优化的核心操作。我们提出Sesame(面向结构感知分子引擎的空间进化模块),一种基于扩散的分子生成模型,它利用新颖的空间成对模块(spatial pairformer module)来基于部分分子结构和周围蛋白质口袋进行条件化,两者均表示为连续空间密度图。这一单一的条件机制同时支持从头生成和片段条件下的先导优化,使药物化学家能够将命中化合物修剪至一个骨架,并让Sesame以富有成效的方式对其进行生长。除该模块外,我们还引入了一个扩散框架,用于同时对原子类型、键类型和位置进行去噪,以及一种轨迹微调方案,该方案在模型自身的采样轨迹上训练,以提升生成质量。Sesame在大量仅配体以及蛋白质-配体数据集上进行训练。

关键词:分子生成,扩散模型,结构感知设计,密度图,药物发现

参考图注图1:扩散过程快照,从左到右。此处,我们在片段条件下对配体进行去噪,使模型能够填补空缺并扩展现有核心。

## 1 引言

### 1.1 问题陈述

现代蛋白质折叠模型具备以有意义的方式推理蛋白质-配体相互作用的能力,在多项任务上展现出良好的准确性。然而,这些模型从根本上受限于对特定配体的知识,这些知识通常以硬约束形式传递给生成算法。这些架构与从头生成分子不兼容,这意味着任何使用这些模型进行药物发现的系统都必须在化学空间探索与计算成本及约束之间谨慎平衡。此外,这些蛋白质-配体模型并非完美,常常会生成存在微小不一致性的结构,例如错误的构型。我们的方法旨在借鉴蛋白质折叠领域的成功经验,并将其扩展以执行完整的分子生成任务。

除了从头生成,第二个能力对于实际药物发现活动同样至关重要,但却常常被生成模型所忽视:先导化合物优化,即对已知命中化合物进行改进,而非从头设计。在实践中,这正是人类专业知识最有价值之处——药物化学家能够识别命中化合物中值得保留的子结构,并将其修剪至该骨架。一个有用的生成模型应将该片段视为一个可生长和细化的软性先验,而非刚性的原子级约束,从而使人类洞察力与生成化学相辅相成而非相互竞争。因此,我们将片段条件下的生成与从头设计并列为主要目标,并如下所述,通过单一的条件机制同时实现两者。

### 1.2 动机

我们的方法受到三个关键见解的驱动。首先,通过在密集网格上估算各种力来编码蛋白质局部结构是一种常见技术,并广泛应用于各种对接算法中。这些所谓的密度图为3D结构信息提供了一种自然表示,以统一的基于网格的格式编码多种物理性质(电荷、疏水性、氢键、范德华相互作用)。这使得能够以相同大小的输入对多样化的蛋白质口袋进行建模,从而带来许多计算上的高效性。其次,Pairformer架构在需要复杂多向交互的任务中表现优异。对该架构进行扩展,使信息能够从密度图传递到预测中,是输入为密度图的模型的一个基本组成部分。第三,以生成分子为目标扩散模型需要一种能够同时处理离散原子类型和连续原子坐标的扩散方法。许多朴素方法未能考虑训练模型产生的偏差,因此仔细审视反向扩散过程对于构建稳健的生成模型至关重要。

### 1.3 贡献

我们的主要贡献包括:

1. 1. 新颖的密度图条件化架构:一种基于注意力的机制,能够自适应地从密度图中采样以引导分子生成,从而实现结构感知生成。
2. 2. 用于先导优化的统一片段与口袋条件化:由于蛋白质口袋和部分配体都以相同的连续密度场形式提供给模型,因此单一机制无需改变架构即可支持从头生成和片段条件下的生长。这使得先导优化成为一流能力:药物化学家可以将一个命中分子修剪成一个骨架,然后Sesame围绕它生成化学合理、与口袋兼容的完整结构——这是人类洞察力与生成化学的直接整合。在片段条件生成中,94.8%的生成分子保留了作为子结构的起始片段,证实了条件化被尊重而非忽略。
3. 3. 混合离散-连续扩散:一个统一的扩散过程,通过分类扩散处理离散的原子类型和键类型,通过高斯扩散处理连续坐标。
4. 4. 轨迹微调:一种自蒸馏微调方案,它展开模型自身的反向扩散轨迹,将预测原子与真实值重新匹配,并在由此产生的(噪声状态,对齐目标)对上进行训练,从而提升完全生成分子的质量。

## 2 相关工作

##### 生成3D分子。

直接在3D分子结构上操作的去噪生成模型已成为从头设计的主导范式。等变扩散模型通过在E(3)/SE(3)对称性下联合去噪原子坐标和类型建立了模板(Hoogeboom et al., 2022 (https://arxiv.org/html/2606.23856#bib.bib8)),后续工作统一了连续坐标与离散原子及键特征的扩散(Vignac et al., 2023b (https://arxiv.org/html/2606.23856#bib.bib15))。另一条互补的路线用流匹配取代去噪扩散,以确定性传输取代随机逆向时间动力学,通常能提高采样效率和物理质量(Irwin et al., 2025 (https://arxiv.org/html/2606.23856#bib.bib10); Dunn and Koes, 2026 (https://arxiv.org/html/2606.23856#bib.bib5))。这些方法大多针对通用小分子——通常以QM9规模的数据集为基准——而非专门针对类药物化学(Hoogeboom et al., 2022 (https://arxiv.org/html/2606.23856#bib.bib8); Vignac et al., 2023b (https://arxiv.org/html/2606.23856#bib.bib15); Irwin et al., 2025 (https://arxiv.org/html/2606.23856#bib.bib10)),并且它们共享一个与我们的设定相关的结构性局限:原子数量在采样前就固定了,因此模型无法生长或修剪分子以匹配目标。另一条截然不同的架构思路并非来自分子生成,而是来自生物分子结构预测:AlphaFold3将Pairformer主干与去噪原始原子坐标的扩散模块相结合(Abramson et al., 2024 (https://arxiv.org/html/2606.23856#bib.bib17)),而开源的Boltz模型采纳并扩展了这种共同折叠架构(Wohlwend et al., 2024 (https://arxiv.org/html/2606.23856#bib.bib18); Passaro et al., 2025 (https://arxiv.org/html/2606.23856#bib.bib19))。虽然这些系统是预测给定复合物的结构而非生成新颖配体,但其成对表示加扩散解码器的设计直接影响了Sesame的架构。

##### 空间场与体素表示。

较小一部分工作将分子表示为点集,而是表示为连续空间图——最直接的是,在学习的密度空间中对体素网格进行去噪,用于无条件3D生成(Pinheiro et al., 2024b (https://arxiv.org/html/2606.23856#bib.bib12))和基于结构的设计(Pinheiro et al., 2024a (https://arxiv.org/html/2606.23856#bib.bib13))。这种框架是我们条件化方案最直接的先例,其中口袋和(部分)配体都被表示为物理势能图。ShEPhERD同样在相互作用场——形状、静电势和药效团——上进行操作,生成与目标特征相匹配的分子(Adams et al., 2025 (https://arxiv.org/html/2606.23856#bib.bib1)),这种表示在概念上与我们口袋条件化的设定相反。

##### 基于骨架和片段的条件化。

几种方法从固定的结构先验出发生成分子——装饰骨架、连接片段或从种子生长。DiffLinker设计在断开连接的3D片段条件下的连接子(Igashov et al., 2024 (https://arxiv.org/html/2606.23856#bib.bib9));DiffDec端到端执行结构感知的骨架装饰(Xie et al., 2024 (https://arxiv.org/html/2606.23856#bib.bib16));而3D-Scaffold围绕指定骨架生成类药物分子的3D坐标(Joshi et al., 2021 (https://arxiv.org/html/2606.23856#bib.bib11))。这些对应于Sesame中的第二种条件化模式,其中骨架或片段的全图或部分图作为生成种子;与那些将子结构固定为离散原子的方法不同,Sesame将其作为与口袋相同的连续场提供,使得先验可以是部分的,并且周围的化学结构可以生长以适应。

##### 用于药物发现的生成模型。

上述方法主要关注广阔化学空间中的生成;另一并行工作与我们针对靶点发现类药命中化合物的具体目标一致。对于靶点感知生成,以蛋白质结合位点为条件的扩散模型直接在口袋内生成配体:TargetDiff在蛋白质上下文条件下联合建模配体原子及其几何结构,并额外估计结合亲和力(Guan et al., 2023 (https://arxiv.org/html/2606.23856#bib.bib7)),而DiffSBDD则将等变扩散应用于基于结构的设计,涵盖口袋条件生成和修补任务(Schneuing et al., 2024 (https://arxiv.org/html/2606.23856#bib.bib14))。更近期的系统将口袋条件化扩展到具有多目标导向的流匹配(Cremer et al., 2024 (https://arxiv.org/html/2606.23856#bib.bib2))以及统一的基于相互作用和片段的生成(Cremer et al., 2026 (https://arxiv.org/html/2606.23856#bib.bib3))。在没有明确口袋可用的情况下,ShEPhERD通过以已知配体的相互作用谱为条件并生成生物等排置换来追求相同的靶点驱动目标(Adams et al., 2025 (https://arxiv.org/html/2606.23856#bib.bib1))。第二个持续存在于这些生成模型与实用命中发现之间的差距是可合成性:结构上有效的分子不一定可制备。一条日益增长的研究路线通过在可合成化学空间中直接生成——从可购买的构建模块和反应模板而非原子出发组成分子(Gao et al., 2025 (https://arxiv.org/html/2606.23856#bib.bib6)),或通过生成流网络摊销对合成路线的搜索(Cretu et al., 2025 (https://arxiv.org/html/2606.23856#bib.bib4))——来解决这一问题。Sesame与口袋条件化方法的不同之处在于,口袋以空间势能图而非显式原子环境的形式输入,并且口袋条件化是可选的而非必需的;我们视可合成性感知的生成与空间场条件化为互补而非竞争关系,可作为下游过滤器或替代解码器组合使用。在这些工作路线中,基于空间场条件化、从部分片段生长和针对蛋白质口袋生成这三者大多是被孤立地研究的;Sesame设计用于在单个生成过程中支持所有三者。

## 3 方法

### 3.1 总体架构

我们的训练流程包含几个关键组件:来自多个来源的数据生成、密度图计算、模型前向传播、扩散过程和损失计算。

训练过程从两个来源的数据生成开始:ZINC(仅配体)和SAIR(蛋白质-配体对)。每个样本经过预处理以生成密度图并提取分子图。在训练期间,模型接收来自前向扩散过程的噪声原子类型和位置,以及密度图和条件化信号。模型预测去噪后的原子类型、位置和键,这些与真实值通过多分量损失函数进行比较。

### 3.2 分子成对模块架构

表1:模型维度与超参数

#### 3.2.1 核心组件

MoleculePairformer\(^1\)\(^1\)MoleculePairformer遵循AlphaFold的Evoformer/Pairformer血统;在架构上它是一个pairformer——操作于单表示和成对表示,没有MSA轨道——我们在全文这样称呼。Sesame(面向结构感知分子引擎的空间进化模块)全称中的“Evoformer”反映了这一血统。操作于两个主要表示(图2 (https://arxiv.org/html/2606.23856#S3.F2)A):

- •单表示s∈RN×ds\mathbf{s}\in\mathbb{R}^{N\times d_{s}}:每个原子的特征,维度为ds=384d_{s}=384,其中NN是最大可能的原子数量。
- •成对表示p∈RN×N×dp\mathbf{p}\in\mathbb{R}^{N\times N\times d_{p}}:原子对特征,维度为dp=128d_{p}=128。

原子类型被表示为16个离散类别,对应于类药物分子中出现的(元素,隐氢数目)对,再加上一个额外的伪无类别,总共AT=17AT=17种原子类型。这16个类药物类别是:(C,0), (C,1), (C,2), (C,3), (N,0), (N,1), (N,2), (O,0), (O,1), (F,0), (P,0), (S,0), (S,1), (Cl,0), (Br,0), (I,0)。这些覆盖了类药物分子中绝大多数重原子,隐氢数目编码了局部价态上下文,而无需在模型中引入显式氢原子。分子生成过程的一个关键特征是模型不仅需要预测空间中哪些位置存在哪种原子类型,还要预测给定分子需要多少原子。换句话说,模型最多可以输出NN个原子,但必须为最终分子中不存在的所有原子预测伪无类型。

模型使用多个嵌入层:

1. 1. 原子类型嵌入:从ATAT种噪声原子类型映射到dsd_{s}维度的线性层。
2. 2. 原子位置嵌入:原子位置的傅里叶嵌入,随后经过线性投影到dsd_{s}维度。
3. 3. 键类型嵌入:从BTBT种噪声键类型映射到dpd_{p}维度的线性层,并加到位置对嵌入上。
4. 4. 位置对嵌入:傅里叶嵌

相似文章

可控分子生成基础模型

arXiv cs.LG

提出CoMole,一种基于基序感知图扩散和强化学习的可控分子生成基础模型,在材料和药物发现基准测试中实现了卓越的可控性。

新AI工具可生成数百万种新分子

Reddit r/ArtificialInteligence

来自罗维拉-威尔吉利大学的研究人员在《自然-机器智能》上发表论文,介绍了CoCoGraph,这是一种利用约束离散扩散过程生成化学有效的新型分子的AI工具。