ConTact:通过显式界面推理实现接触优先的抗体CDR设计
摘要
ConTact 提出了一种接触优先(contact-then-act)架构用于抗体CDR设计,该架构将任务显式分解为界面推理、接触预测和接触门控序列生成三个阶段,在Chimera-Bench基准测试上实现了最先进的结构质量和表位感知能力。
arXiv:2605.21600v1 公告类型:新提交
摘要:计算性抗体CDR设计方法以抗原结构为条件来生成结合环,然而现有架构混淆了两个根本不同的子问题:识别哪些CDR位置将与抗原接触,以及在这些位置选择氨基酸。这种混淆迫使模型通过统一的訊息传递隐式学习接触推理,从而同等稀释了所有位置的抗原信号。我们提出了ConTact,一种接触优先架构,将CDR设计显式分解为三个级联阶段:学习表面互补指纹、预测CDR-抗原接触、以及将接触门控抗原特征注入序列头。距离偏置的交叉注意力模块编码偏向空间邻近的几何先验,而接触加权的交叉熵损失则将梯度信号集中在结合关键位置。在CHIMERA-Bench数据集上,ConTact在多个CDR-H3设计基线中实现了最佳结构质量(比次优基线提高7%的RMSD)、最佳表位感知能力(比GNN基线提高10%的F1分数)以及具有竞争力的序列恢复率(AAR 0.38)。
查看缓存全文
缓存时间: 2026/05/22 08:49
# ConTact: 通过显式接口推理实现接触优先的抗体CDR设计
来源:https://arxiv.org/html/2605.21600
###### 摘要
计算抗体CDR设计方法以抗原结构为条件生成结合环,但现有架构混淆了两个本质上不同的子问题:识别哪些CDR位置将与抗原接触,以及在这些位置上选择氨基酸。这种混淆迫使模型通过统一的消息传递隐式学习接触推理,将抗原信号平均稀释到所有位置。我们提出**ConTact**,一种“先接触后行动”的架构,将CDR设计显式分解为三个级联阶段:学习表面互补性指纹、预测CDR-抗原接触、以及将接触门控的抗原特征注入序列头。距离偏置的交叉注意力模块编码偏向空间邻居的几何先验,而接触加权的交叉熵损失将梯度信号集中在结合关键位置上。在**Chimera-Bench**上,ConTact 实现了最佳的结构质量(RMSD 比次优基线提升 7%)、最佳的表位感知能力(F1 分数比 GNN 基线提升 10%),以及在多个 CDR-H3 设计基线中具有竞争力的序列恢复率(AAR 0.38)。
抗体设计, CDR, 接触预测, 图神经网络, 等变
## 1 引言
抗体通过其互补决定区(CDRs)结合抗原,CDRs 是六个超可变环,其序列和结构决定结合特异性(Chothia and Lesk, 1987 (https://arxiv.org/html/2605.21600#bib.bib278))。计算 CDR 设计方法以抗原结构为条件,为这些环生成序列和主链构象(Luo et al., 2022 (https://arxiv.org/html/2605.21600#bib.bib252); Kong et al., 2023a (https://arxiv.org/html/2605.21600#bib.bib256), b (https://arxiv.org/html/2605.21600#bib.bib251); Wu et al., 2025b (https://arxiv.org/html/2605.21600#bib.bib199))。然而,越来越多的证据表明,现有方法很大程度上未能利用抗原信息。当抗原被移除时,预测几乎保持不变(Li et al., 2025 (https://arxiv.org/html/2605.21600#bib.bib335)),而 BLOSUM 替代矩阵解释模型输出的能力与学习到的似然相当(Uçar and Sormanni, 2025 (https://arxiv.org/html/2605.21600#bib.bib284); Chinery et al., 2024 (https://arxiv.org/html/2605.21600#bib.bib337))。
我们认为根本原因在于架构:当前方法将两个不同的子问题混淆在一个单一的预测头中。第一个子问题是 CDR *将要在哪里*接触抗原,即哪些 CDR 位置形成结合相互作用。第二个子问题是,考虑到结合伙伴的局部化学环境,在这些位置上*应该放置什么*氨基酸。等变 GNN 如 MEAN (Kong et al., 2023a (https://arxiv.org/html/2605.21600#bib.bib256)) 和 RAAD (Wu et al., 2025b (https://arxiv.org/html/2605.21600#bib.bib199)) 通过统一的消息传递传播抗原信息,这种传递平等对待所有抗原残基。基于扩散的方法如 DiffAb (Luo et al., 2022 (https://arxiv.org/html/2605.21600#bib.bib252)) 将抗体和抗原残基拼接成一个平面图,仅使用片段类型嵌入来区分它们。即使是 dyMEAN (Kong et al., 2023b (https://arxiv.org/html/2605.21600#bib.bib251)),它使用了阴影互补位机制和边距离预测来实现接触感知的图构建,也没有使用预测的接触来调节序列预测。在所有情况下,模型必须同时发现哪些位置与结合相关以及哪些残基应该在那里,使用一个统一的交叉熵损失,该损失为每个位置分配同等的学习能力。
CDR-抗原界面本质上是稀疏的。一个长度为 10-25 的 CDR-H3 通常只与抗原形成 5-15 个接触,接触位置的氨基酸身份直接受到结合伙伴化学性质的约束:疏水口袋选择互补的疏水 CDR 残基,而带电斑块偏好相反电荷的侧链。非接触位置主要受主链几何和环稳定性的约束。平等对待这两类位置浪费了在信息量较少的非接触位置上的学习能力。
我们提出 **ConTact**,一种接触优先的架构,将 CDR 设计分解为三个显式阶段,在处理“什么”之前先处理“哪里”。首先,模型学习表面互补性指纹,表征每个 CDR 位置的局部结合环境,灵感来自分子表面指纹(Gainza et al., 2020 (https://arxiv.org/html/2605.21600#bib.bib238), 2023 (https://arxiv.org/html/2605.21600#bib.bib239))。其次,它使用有监督的接触预测器预测哪些 CDR 位置将与抗原接触。第三,它根据预测的接触置信度,选择性地将局部抗原特征注入 CDR 表示中,使得抗原信息优先流向结合关键位置。距离偏置的交叉注意力模块通过偏好空间邻居提供几何归纳偏置,而接触加权的交叉熵损失将梯度信号集中在模型识别为接触的位置上。
我们的贡献是:
1. 我们识别了接触识别和序列预测的混淆是现有 CDR 设计架构的结构性限制,并提出了*接触优先*的设计范式,将这些子问题分解为一个显式的三级级联。
2. 我们引入了一种接触门控注入机制,具有双重门控(学习门 × 接触置信度),选择性地将抗原信息路由到结合相关的 CDR 位置,防止来自远处抗原残基的噪声影响非接触位置。
3. 我们在 **Chimera-Bench** 上证明,ConTact 在十一个基线中实现了最佳的 RMSD(1.63 Å,比次优好 7%)、表位 F1(0.79,比 GNN 基线好 10%)、fnat(0.67)和 AAR(0.38)。
## 2 相关工作
##### 等变 GNN 方法。
MEAN (Kong et al., 2023a (https://arxiv.org/html/2605.21600#bib.bib256)) 引入了多通道等变注意力,交替使用段内和段间层进行 CDR 设计。dyMEAN (Kong et al., 2023b (https://arxiv.org/html/2605.21600#bib.bib251)) 通过一个阴影互补位机制扩展了这一点,该机制预测链间边距离以实现动态图构建,使其成为最接近接触感知 CDR 设计的现有工作。RAAD (Wu et al., 2025b (https://arxiv.org/html/2605.21600#bib.bib199)) 定义了八种关系感知边类型,采用伯努利边采样,并在测试时优化中使用对比特异性损失。ConTact 与这三者的不同之处在于,它使用预测的接触通过门控注入和位置特定的损失加权直接调节序列预测头,而不是仅将接触相关信息用于图拓扑(dyMEAN)或测试时优化(RAAD)。
##### 扩散和流方法。
DiffAb (Luo et al., 2022 (https://arxiv.org/html/2605.21600#bib.bib252)) 将 CDR 生成建模为坐标、取向和氨基酸类型的联合扩散过程。AbFlowNet (Abir et al., 2025 (https://arxiv.org/html/2605.21600#bib.bib259)) 通过流匹配和轨迹平衡损失扩展了这一点。AbMEGD (Chen et al., 2025 (https://arxiv.org/html/2605.21600#bib.bib261)) 和 RADAb (Wang et al., 2024 (https://arxiv.org/html/2605.21600#bib.bib123)) 增加了检索增强和多专家组件。dyAb (Tan et al., 2025 (https://arxiv.org/html/2605.21600#bib.bib254)) 应用了带有结构松弛的流匹配。FlowDesign (Wu et al., 2025a (https://arxiv.org/html/2605.21600#bib.bib303)) 遵循诊断然后修复的方法,认定标准高斯先验不适合 CDR 生成,并用数据驱动的先验分布取代它们。所有这些方法都将抗原条件化处理为抗体和抗原残基带片段类型嵌入的平面拼接,应用统一注意力而不区分接触和非接触位置。ConTact 解决了一个互补的限制:不是先验分布,而是条件化机制本身。
##### 抗原条件化的失败。
多项研究记录了现有 CDR 设计方法未能有效使用抗原信息。Li 等人 (2025 (https://arxiv.org/html/2605.21600#bib.bib335)) 显示当抗原被移除时预测几乎保持不变。Uçar 和 Sormanni (2025 (https://arxiv.org/html/2605.21600#bib.bib284)) 证明了 BLOSUM 替代矩阵解释模型输出的能力与学习到的似然相当。Chinery 等人 (2024 (https://arxiv.org/html/2605.21600#bib.bib337)) 发现简单计算方法可以胜过深度学习,在生成多样化、富含结合剂的抗体文库方面。RefineGNN (Jin et al., 2022b (https://arxiv.org/html/2605.21600#bib.bib131)) 不接收抗原输入,却在 Chimera-Bench 上取得了次优的结合指标,进一步证实了这种失败。ConTact 中的接触优先分解通过为抗原信息到达序列头提供显式的、有监督的路径,直接针对这一问题。
##### 预测然后设计范式。
在设计序列之前预测结合相关特征的想法在更广泛的蛋白质设计中有先例。MaSIF-seed (Gainza et al., 2023 (https://arxiv.org/html/2605.21600#bib.bib239)) 使用学习到的表面指纹预测分子表面上的有利相互作用位点,然后针对这些位点设计结合剂。RFdiffusion (Watson et al., 2023 (https://arxiv.org/html/2605.21600#bib.bib293)) 首先生成蛋白质主链,然后用 ProteinMPNN 设计序列。ConTact 在残基-接触级别应用类似的预测-然后-设计策略:预测哪些 CDR 位置将接触抗原,然后将序列设计条件化于这些预测。与 MaSIF-seed 不同,后者在单独的流程中对分子表面进行操作,ConTact 在单个可微架构内端到端地执行接触预测和序列设计。
## 3 预备知识
### 3.1 任务定义
我们采用 Chimera-Bench 的表述 (Ahmed et al., 2026 (https://arxiv.org/html/2605.21600#bib.bib1))。给定一个抗原结构 \(A=\{ (s_j, \mathbf{x}_j) \mid j \in V_A \}\)、一个表位规范 \(E \subseteq V_A\),以及一个抗体框架 \(F=\{ (s_i, \mathbf{x}_i) \mid i \in V_{\text{FR}} \}\),任务是设计 CDR 残基 \(R=\{ (s_k, \mathbf{x}_k) \mid k \in V_{\text{CDR}} \}\),以最大化以表位接触约束为条件的条件似然:
\[
R^* = \operatorname*{arg\,max}_R \; p_\theta \!\bigl( R \mid A, E, F \bigr), \quad \text{s.t.} \; \mathcal{C}(R,A) \neq \emptyset \tag{1}
\]
其中每个残基具有氨基酸类型 \(s_k \in \{1, \ldots, 20\}\) 和 Cα 坐标 \(\mathbf{x}_k \in \mathbb{R}^3\)。我们用 \(\mathcal{C}(R,A) = \{ j \in V_A \mid \exists \, k \in V_{\text{CDR}} : \|\mathbf{x}_k - \mathbf{x}_j\| < d_c \}\) 表示在截断距离 \(d_c\) 内接触的抗原残基集合。我们重点关注 CDR-H3,这是最易变的环,也是抗原特异性的主要决定因素 (Chothia and Lesk, 1987 (https://arxiv.org/html/2605.21600#bib.bib278))。
### 3.2 图构建
我们将抗体-抗原复合物表示为一个异构图 \(\mathcal{G} = (V, \mathcal{E})\)。节点集 \(V = V_{\text{HC}} \cup V_{\text{LC}} \cup V_A \cup V_{\text{glob}} \cup V_{\text{vn}}\) 包含来自重链 (\(V_{\text{HC}}\))、轻链 (\(V_{\text{LC}}\)) 和抗原 (\(V_A\)) 的残基节点,三个全局分隔令牌 (\(V_{\text{glob}} = \{ \text{BOH}, \text{BOL}, \text{BOA} \}\)) 以及 \(N_{\text{vn}}\) 个虚拟节点 (Sestak et al., 2026 (https://arxiv.org/html/2605.21600#bib.bib220))。每个残基节点 \(i\) 携带氨基酸类型 \(s_i \in \{1, \ldots, 20\}\) 和四个主链原子坐标 \(\mathbf{X}_i = [\mathbf{x}_i^{\text{N}}, \mathbf{x}_i^{\text{C}\alpha}, \mathbf{x}_i^{\text{C}}, \mathbf{x}_i^{\text{O}}] \in \mathbb{R}^{4 \times 3}\)。
边集 \(\mathcal{E}\) 被划分为 10 个类型子集,以捕获不同的结构关系。在每个链内,我们构建*径向边*(连接所有在 Cα 距离截断内的对)、*序列边*(连接在主序列中相距一个或两个位置的残基)和*KNN 边*(连接每个残基与其最近的空间邻居)。跨链之间,我们添加*链间径向边*和*链间 KNN 边*,使抗体和抗原残基之间能够直接通信。三条*全局到链边*将分隔令牌连接到各自的链。两个*虚拟节点边类型*将每个虚拟节点双向连接到所有表位和所有 CDR 残基。这在表位和 CDR 之间创建了一个两跳捷径,直接解决了过压缩问题 (Alon and Yahav, 2021 (https://arxiv.org/html/2605.21600#bib.bib329)),即来自远处表位残基的信息通过许多层顺序消息传递而被稀释。
每条边 \((i,j)\) 携带一个特征向量 \(\mathbf{e}_{ij}\),编码边类型(独热)、局部坐标系中的相对位置、主链原子对之间的成对距离 RBF、相对主链取向的四元数编码以及局部坐标系方向特征。虚拟节点边使用可学习的特征向量而不是几何特征。
### 3.3 动机:接触优先分解
现有的 CDR 设计方法通过空间消息传递或交叉注意力处理抗原信息,但都没有将*识别接触*的问题与*在接触处设计残基*的问题分开。MEAN (Kong et al., 2023a (https://arxiv.org/html/2605.21600#bib.bib256)) 交替使用段内和段间等变注意力层,统一关注所有抗原残基。RAAD (Wu et al., 2025b (https://arxiv.org/html/2605.21600#bib.bib199)) 定义了八种关系感知边类型,并在抗原连接上使用伯努利边采样,但其对比特异性损失仅在测试时优化期间起作用,而不是在训练期间。dyMEAN (Kong et al., 2023b (https://arxiv.org/html/2605.21600#bib.bib251)) 引入了一个阴影互补位,用于预测链间边距离以进行图构建,使其最接近接触感知,但这些距离用于通知图拓扑,而不是序列预测头。DiffAb (Luo et al., 2022 (https://arxiv.org/html/2605.21600#bib.bib252)) 和 AbFlowNet (Abir et al., 2025 (https://arxiv.org/html/2605.21600#bib.bib259)) 将所有残基连接成一个带片段类型嵌入的平面图,应用统一的几何注意力。RefineGNN (Jin et al., 2022b (https://arxiv.org/html/2605.21600#bib.bib131)) 在没有抗原输入的情况下自回归生成 CDR,却取得了令人惊讶的强大结合指标,进一步凸显了现有条件化方法的失败。
所有这些方法都应用统一的交叉熵损失,平等对待每个 CDR 位置,无论它是否接触抗原。这相似文章
AgForce 实现抗原条件生成式抗体设计
本文识别了现有抗体设计方法中的三种失败模式(抗原盲区、词汇崩溃、收敛到边缘分布),并提出 AgForce,一种使用图神经网络和混合密度网络的新型编码器-解码器架构,在 Chimera-Bench 基准测试上实现了最先进的结合质量和序列恢复。
通过分类器引导的胚系吸收离散扩散实现抗体序列的条件生成
本文介绍了一种具有新颖“胚系吸收”特性的离散扩散模型,以改善抗体序列的条件生成。该模型解决了蛋白质语言模型中的胚系偏差问题,并在优化抗体结合亲和力和可开发性方面表现出优于现有方法(如 EvoProtGrad)的性能。
解读细胞,设计疗法:基于扰动条件的分子扩散用于功能导向药物设计
本文正式将基于转录组的药物设计(TBDD)形式化为一个生成式逆问题,并提出了CURE——一个多分辨率转录组引导的扩散框架,能够生成以所需转录组状态转变为条件的药物分子。
CellBRIDGE: 通过交互感知对齐学习细胞轨迹
CellBRIDGE是一种新方法,通过引入配体-受体相互作用成本来模拟细胞间通讯,增强了对scRNA-seq轨迹推断的最优传输,改进了对齐并实现了可解释的计算机模拟扰动。
结构蛋白质组学引导的共折叠模型
介绍了AIMS-Fold,一种推理时引导扩散框架,整合了交联质谱(XL-MS)和氢-氘交换(HDX-MS)数据,以改善针对诱导接近药物靶点的蛋白质共折叠预测。