结构蛋白质组学引导的共折叠模型

arXiv cs.LG 2026/05/27 04:00 论文

structural-proteomics protein-folding diffusion-model xl-ms hdx-ms drug-design induced-proximity

摘要

介绍了AIMS-Fold，一种推理时引导扩散框架，整合了交联质谱（XL-MS）和氢-氘交换（HDX-MS）数据，以改善针对诱导接近药物靶点的蛋白质共折叠预测。

arXiv:2605.26192v1 公告类型：新摘要：蛋白质结构生成模型在根据序列预测单个蛋白质静态结构方面表现出色，但通常无法捕捉蛋白质复合物的正确构象状态，而这对蛋白质设计以及抗体、PROTAC等诱导接近模式至关重要。虽然结构蛋白质组学技术（如交联质谱（XL-MS）和氢-氘交换（HDX-MS））提供了有价值的空间和动力学洞察，但将这些稀疏、异质的测量结果整合到这些模型中仍然是一个开放的挑战。在此，我们通过将结构蛋白质组学数据与预训练扩散模型学习到的丰富生物物理先验相结合，弥合了这一差距。我们引入了AIMS-Fold，这是一种推理时引导扩散框架，利用从XL-MS空间约束和HDX-MS溶剂可及性概况派生的可微分物理势，主动引导生成采样轨迹。我们证明这些结构方法各自提高了预测准确性，并且它们的整合产生了协同改进。关键的是，通过利用这些实验约束，AIMS-Fold在具有挑战性的诱导接近靶点上取得了比纯计算、无引导的最新模型（如Boltz-2）更高的准确性。这确立了我们的框架作为一种强大的、整合性计算方法，用于基于结构的诱导接近药物设计。评估代码将在发表后公开提供。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:05

# 结构蛋白质组学指导的共折叠模型
来源：https://arxiv.org/html/2605.26192
Alon Shtrikman1∗Nitzan Simchi1∗Michal Ran Shchory1∗ Sagie Brodsky1∗Eran Seger1Kirill Pevzner1✉\{\}^\{1\\textrm\{\{\\char 0\\relax\}\}\} 1Protai Bio kirill@protai\.bio ∗共同贡献 ✉\{\}^\{\\textrm\{\{\\char 0\\relax\}\}\}通讯作者

###### 摘要

蛋白质结构生成模型擅长从序列预测单一蛋白质的静态结构，但通常无法捕捉蛋白质复合物的正确构象状态，而这对于蛋白质设计以及抗体和PROTAC等诱导邻近模式至关重要。尽管交联质谱（XL-MS）和氢氘交换质谱（HDX-MS）等结构蛋白质组学技术提供了有价值的空间和动态信息，但将这些稀疏、异质的测量结果整合到这些模型中仍然是一个开放挑战。在这里，我们通过将结构蛋白质组学数据与预训练扩散模型学习到的丰富生物物理先验知识相结合，弥合了这一差距。我们引入了AIMS-Fold，一个推理时间引导扩散框架，它利用来自XL-MS空间约束和HDX-MS溶剂可及性曲线的可微物理势，主动引导生成采样轨迹。我们证明，这些结构方法各自提高了预测准确性，而它们的整合则产生了协同改进。至关重要的是，通过利用这些实验约束，AIMS-Fold在具有挑战性的诱导邻近目标上，比纯计算的无引导最先进模型（如Boltz-2）实现了更高的准确性。这使得我们的框架成为基于结构的诱导邻近药物设计的一种强大、集成的计算方法。评估代码将在发表后公开提供。

## 1 引言

邻近诱导药物，包括蛋白水解靶向嵌合体（PROTACs）和分子胶，代表了一类新型治疗模式[4 (https://arxiv.org/html/2605.26192#bib.bib13),31 (https://arxiv.org/html/2605.26192#bib.bib14)]。与经典的小分子抑制剂（其功效由与单一靶标的二元结合亲和力决定）不同，邻近诱导剂的活性由三元复合物（例如，靶蛋白、桥接分子和效应蛋白如E3连接酶）的组装和动态行为驱动[40 (https://arxiv.org/html/2605.26192#bib.bib33),43 (https://arxiv.org/html/2605.26192#bib.bib32),29 (https://arxiv.org/html/2605.26192#bib.bib31),13 (https://arxiv.org/html/2605.26192#bib.bib30)]。对于理性药物设计，使用正确的蛋白质复合物状态至关重要[14 (https://arxiv.org/html/2605.26192#bib.bib42)]。这些复合物需要在结构稳定性与执行生物学功能（如最佳泛素化几何结构）所需的灵活性之间取得平衡[21 (https://arxiv.org/html/2605.26192#bib.bib23),5 (https://arxiv.org/html/2605.26192#bib.bib2)]。

最近，序列到结构的深度学习模型，最显著的是AlphaFold3[1 (https://arxiv.org/html/2605.26192#bib.bib24)]和Boltz-2[23 (https://arxiv.org/html/2605.26192#bib.bib10)]，通过提供高度准确的蛋白质组范围结构预测，对结构生物学产生了影响。尽管取得了这些突破，但此类模型主要被训练用于将序列映射到单一静态结构状态[20 (https://arxiv.org/html/2605.26192#bib.bib43)]。由于动态的蛋白质-蛋白质相互作用和药物诱导的复合物在训练库（如蛋白质数据库PDB）中很少出现，这些模型在预测单一静态状态时经常过度自信[16 (https://arxiv.org/html/2605.26192#bib.bib3)]。因此，它们无法捕捉由诱导邻近药物驱动的构象变化[24 (https://arxiv.org/html/2605.26192#bib.bib44),9 (https://arxiv.org/html/2605.26192#bib.bib45)]。

结构蛋白质组学通过捕捉蛋白质复合物的动态特性解决了这个问题[17 (https://arxiv.org/html/2605.26192#bib.bib21)]。交联质谱（XL-MS）提供了空间约束[16 (https://arxiv.org/html/2605.26192#bib.bib3),17 (https://arxiv.org/html/2605.26192#bib.bib21)]，而氢氘交换质谱（HDX-MS）捕捉了溶剂可及性[19 (https://arxiv.org/html/2605.26192#bib.bib16)]。将原始质谱数据直接整合到结构生成模型中以主动引导结构预测仍然是一个挑战[39 (https://arxiv.org/html/2605.26192#bib.bib46)]。

在这项工作中，我们通过引入AIMS-Fold弥合了这一差距，这是一个新颖的基于扩散的生成模型，它主动使用稀疏的结构蛋白质组学数据来指导结构生成。AIMS-Fold不依赖模型权重进行静态结构预测，也不使用实验数据进行事后过滤[38 (https://arxiv.org/html/2605.26192#bib.bib34),36 (https://arxiv.org/html/2605.26192#bib.bib35),27 (https://arxiv.org/html/2605.26192#bib.bib36)]，而是将推理时间引导[6 (https://arxiv.org/html/2605.26192#bib.bib17)]应用于预训练的原子扩散模型。通过将XL-MS和HDX-MS数据转化为可微物理势，我们的方法在逆向扩散过程中主动改变概率景观，引导采样轨迹朝向满足实验约束的生物学合理构象。我们证明，整合正负空间约束（XL-MS）与溶剂可及性模式（HDX-MS）相比无约束生成或事后过滤，性能显著提高。

参见图注图1：AIMS-Fold是一个推理时间引导扩散框架，主动利用实验导出的约束引导生成采样轨迹。Boltz-2的输入主要包括SMILES和蛋白质序列，而AIMS-Fold则接收HDX-MS、XL-MS正约束和XL-MS负约束，以提高模型预测准确性。
## 2 背景

### 2.1 基于扩散的结构生成

生物分子建模的最新进展，如AlphaFold3[1 (https://arxiv.org/html/2605.26192#bib.bib24)]和Boltz-2[23 (https://arxiv.org/html/2605.26192#bib.bib10)]，将结构预测构建为连续时间生成扩散过程。该模型直接在3D原子坐标空间中操作，其中包含NN个原子的蛋白质结构表示为x∈RN×3\\mathbf{x}\\in\\mathbb{R}^{N\\times 3}。

前向扩散过程逐渐将数据x0∼pdata\\mathbf{x}_{0}\\sim p_{\\text{data}}噪声化为时间变量t∈[0,T]t\\in[0,T]上的标准高斯分布。这种信号的破坏由随机微分方程（SDE）控制[32 (https://arxiv.org/html/2605.26192#bib.bib27)]：

dx=f(x,t)dt+g(t)dw\\mathrm{d}\\mathbf{x}=f(\\mathbf{x},t)\\mathrm{d}t+g(t)\\mathrm{d}\\mathbf{w} (1) 在此公式中，漂移系数和扩散系数分别表示为f(x,t)f(\\mathbf{x},t)和g(t)g(t)，而dw\\mathrm{d}\\mathbf{w}表征标准维纳过程。

为了从目标分布中采样并生成新结构，模型对纯噪声xT∼N(0,I)\\mathbf{x}_{T}\\sim\\mathcal{N}(0,\\mathbf{I})进行采样，并模拟逆向时间SDE（逆向扩散过程）[32 (https://arxiv.org/html/2605.26192#bib.bib27),2 (https://arxiv.org/html/2605.26192#bib.bib9)]：

dx=[f(x,t)−g(t)2∇xlog⁡pt(x)]dt+g(t)dw̄\\mathrm{d}\\mathbf{x}=\\left[f(\\mathbf{x},t)-g(t)^{2}\\nabla_{\\mathbf{x}}\\log p_{t}(\\mathbf{x})\\right]\\mathrm{d}t+g(t)\\mathrm{d}\\mathbf{\\bar{w}} (2) 由于真实的边际得分函数∇xlog⁡pt(x)\\nabla_{\\mathbf{x}}\\log p_{t}(\\mathbf{x})难以处理，因此通过去噪得分匹配[37 (https://arxiv.org/html/2605.26192#bib.bib5)]训练神经网络sθ(x,t)s_{\\theta}(\\mathbf{x},t)来逼近它。在每个采样时间步，模型预测完全去噪的地面真值结构，记为x^0(x,t)\\hat{\\mathbf{x}}_{0}(\\mathbf{x},t)，这驱动轨迹朝向折叠的蛋白质状态。

### 2.2 通过能量势进行推理时间引导

集成到Boltz-2中的一个主要创新是引导机制，这是一种推理时间方法，应用基于物理的势来纠正非物理预测，并将模型引导向特定的构象盆地。至关重要的是，这改变了概率景观，而无需对基础神经网络进行任何重新训练。在数学上，定义了一个可微能量势U(x)U(\\mathbf{x})来表示所需的结构约束。利用Tweedie公式[10 (https://arxiv.org/html/2605.26192#bib.bib7),6 (https://arxiv.org/html/2605.26192#bib.bib17)]，该势在网络当前去噪预测x^0(x,t)\\hat{\\mathbf{x}}_{0}(\\mathbf{x},t)上进行评估。然后将该势的梯度直接注入得分函数中，以引导采样轨迹[6 (https://arxiv.org/html/2605.26192#bib.bib17)]：

sθ~(x,t)=sθ(x,t)−λ(t)∇xU(x^0(x,t))\\tilde{s_{\\theta}}(\\mathbf{x},t)=s_{\\theta}(\\mathbf{x},t)-\\lambda(t)\\nabla_{\\mathbf{x}}U(\\hat{\\mathbf{x}}_{0}(\\mathbf{x},t)) (3) 其中λ(t)\\lambda(t)是一个时间相关的缩放因子，决定了引导的强度。Boltz引导使用平底惩罚函数。这意味着只要生成的结构满足条件，该势就应用零梯度惩罚，但在边界被违反时则施加越来越严重的惩罚。原生地，Boltz利用这种机制来强制物理合理性，应用势来解决生成过程中的空间冲突和纠正立体化学错误。

## 3 方法

### 3.1 质谱引导扩散与引导

AIMS-Fold是一个基于扩散的生物分子结构预测生成模型，构建在Boltz-2架构之上[23 (https://arxiv.org/html/2605.26192#bib.bib10)]。本工作使用并扩展了Boltz-2实现，该实现基于MIT许可证提供。为了更好地支持结构蛋白质组学约束，我们扩展了推理时间引导（Boltz引导），将生成过程引导向生物学上合理的几何结构。AIMS-Fold并非仅依靠神经网络预测去噪步骤，而是基于中间原子坐标计算能量势。这些物理信息势的梯度被注入采样轨迹[6 (https://arxiv.org/html/2605.26192#bib.bib17)]，主动改变概率景观，将模型引导至满足实验数据的构象盆地。

### 3.2 XL-MS距离引导与负约束

经过标准质量控制与归一化后，XL-MS数据作为距离约束被整合。由XL-MS鉴定的交联产生两种类型的空间约束：正约束（规定在给定实验条件下目标残基位于指定的邻近距离内）和负约束（推断残基距离超过交联剂的物理可达范围）。对于正约束，我们利用现有的Boltz-2距离势来吸引指定残基。

关键的是，从差异实验条件得出的XL-MS数据可以推导出负约束（例如，在多种处理中存在但在特定状态下缺失的交联）。为了支持这一点，我们引入了一个否定标志，建立一个排斥势，将指定残基推离超出用户定义的距离阈值dmind_{\\min}，以满足差异缺失交联数据。对于一组负约束残基对Nneg\\mathcal{N}_{\\text{neg}}，排斥势的公式如下：

Uneg(x)=∑(i,j)∈Nnegmax(0,dmin−dij)2U_{\\text{neg}}(\\mathbf{x})=\\sum_{(i,j)\\in\\mathcal{N}_{\\text{neg}}}\\max(0,d_{\\min}-d_{ij})^{2} (4) 这仅在欧氏距离dijd_{ij}低于所需阈值时施加二次惩罚，迫使两个残基在逆向扩散步骤中分开。

### 3.3 整合HDX-MS保护数据

氢氘交换质谱（HDX-MS）捕捉邻近的、动态的物理相互作用，如界面柔性，这是标准空间约束无法完全解决的[45 (https://arxiv.org/html/2605.26192#bib.bib37)]。实验性HDX-MS相对分数摄取值编码了不同状态间的氘摄取差异，其中负值表示复合物形成时的保护。为了将这些保护信号转化为扩散过程中的主动引导，AIMS-Fold采用了两种策略：距离代理和物理可微埋藏势。

#### 基于距离的代理约束

我们将保护数据映射到空间几何。每个受保护残基对另一条链的所有残基产生一个独立的接触约束。最大距离阈值根据实验保护的强度动态缩放：

dmax(i)=dbase(1−|Δi|ws)d_{\\max}(i)=d_{\\text{base}}\\left(1-|\\Delta_{i}|w_{s}\\right) (5) 其中dmax(i)d_{\\max}(i)是残基ii的调整后最大距离边界，dbased_{\\text{base}}是默认基线相互作用距离，|Δi||\\Delta_{i}|是实验HDX-MS保护信号的绝对大小（来自相对分数摄取差异，见3.5节和B.2小节），wsw_{s}是一个可调缩放权重，定义了阈值对实验信号的灵敏度。该计算阈值被限制在最小3Å。这一公式确保空间约束与生物信号成比例：在复合物形成时表现出较大HDX-MS保护（大的|Δi||\\Delta_{i}|）的残基严格缩小dmax(i)d_{\\max}(i)边界，接收更紧的距离界限，迫使模型在生成过程中将它们埋藏得更靠近相互作用界面。

#### 基于可微SASA的保护引导

为了更直接地模拟HDX-MS保护对溶剂可及性的影响，我们实现了一个可微埋藏势。对于每个受保护残基ii，我们计算一个高斯加权的邻居计数buriali\\text{burial}_{i}，作为溶剂可及表面积（SASA）的可微代理：

buriali=∑j≠ie−dij22σ2\\text{burial}_{i}=\\sum_{j\\neq i}e^{-\\frac{d_{ij}^{2}}{2\\sigma^{2}}} (6) 其中dijd_{ij}是原子间的距离，σ\\sigma是高斯核的宽度。较小的σ\\sigma产生更严格的埋藏定义，而较大的值提供更宽的接受域。然后通过相对于参考埋藏常数burialref\\text{burial}_{\\text{ref}}使用指数衰减函数，将埋藏值转换为伪SASA指标：

SASAi=e−burialiburialref\\text{SASA}_{i}=e^{-\\frac{\\text{burial}_{i}}{\\text{burial}_{\\text{ref}}}} (7) 对于每个实验上受保护的残基ii，如果SASAi\\text{SASA}_{i}超过保护阈值τ\\tau，则应用二次损失Li\\mathcal{L}_{i}：

Li=kmax(0,SASAi−τ)2\\mathcal{L}_{i}=k\\max(0,\\text{SASA}_{i}-\\tau)^{2} (8) 总损失L\\mathcal{L}是这些惩罚的总和：

L=∑i∈protectedLi\\mathcal{L}=\\sum_{i\\in\\text{protected}}\\mathcal{L}_{i} (9)

### 3.4 引导调度

结构蛋白质组学引导的共折叠模型

相似文章

折叠、推理与扩展：开源药物发现引擎

QFoldAgent：一种用于蛋白质结构预测的自主量子优化多智能体系统

通过口袋条件扩散和属性感知优化生成可开发的3D分子

PairSAE: 从蛋白质共折叠中的配对表示实现机制可解释性

@SylvainGariel: 我花了一段时间才弄清楚大家对ESMFold2的热议是怎么回事。起初，基准测试数据看起来并不特别突…

提交意见反馈