AgForce 实现抗原条件生成式抗体设计
摘要
本文识别了现有抗体设计方法中的三种失败模式(抗原盲区、词汇崩溃、收敛到边缘分布),并提出 AgForce,一种使用图神经网络和混合密度网络的新型编码器-解码器架构,在 Chimera-Bench 基准测试上实现了最先进的结合质量和序列恢复。
arXiv:2605.21610v1 公告类型: 新
摘要:抗体设计方法以抗原结构为条件生成互补决定区 (CDR),然而对基线方法的系统评估表明,它们在很大程度上忽略了抗原输入。我们识别出导致此行为的三种失败模式。抗原盲区源于模型从抗体框架上下文而非抗原信息中推导预测,导致无论靶标如何都产生几乎相同的 CDR。词汇崩溃将预测的氨基酸减少到每个位置三到五个,远低于天然序列中的真实分布。此外,任何使用标准按位置交叉熵训练的模型都会收敛到位置边缘分布,从而无法产生抗原特异性序列预测。我们提出了一种名为 AgForce 的新型编码器-解码器架构,该架构使用图神经网络 (GNN) 作为编码器,并采用专门的解码器进行序列-结构协同设计。具体来说,我们应用了框架丢弃、门控瓶颈和双曲交叉注意力,以防止抗体捷径路径。在解码器中,使用带有 Potts 型成对耦合和退火多重选择学习 (aMCL) 的混合密度网络 (MDN) 序列头,将交叉熵目标替换为多分量分布,其最优解不同于位置边缘分布。抗原循环一致性头通过序列解码器路由梯度,迫使预测分布编码抗原身份。AgForce 在 CHIMERA-Bench 数据集上同时实现了最佳的結合质量和序列恢复,将氨基酸恢复率比最强序列基线提高了 8%,在所有界面指标上超越了基线,并且几乎将 GNN 方法的有效词汇量翻了一番。源代码可在以下网址获取:https://github.com/mansoor181/ag-force.git
查看缓存全文
缓存时间: 2026/05/22 08:50
# AgForce:一种基于抗原条件生成抗体的设计方法
来源:https://arxiv.org/html/2605.21610
Mansoor Ahmed¹,²,Murray Patterson¹\*
¹佐治亚州立大学,亚特兰大,佐治亚州,美国
²佐治亚理工学院,亚特兰大,佐治亚州,美国
###### 摘要
抗体设计方法通常以抗原结构为条件来生成互补决定区(CDR),然而对基线方法的系统评估表明,这些方法在很大程度上忽略了抗原输入。我们发现了三种能够解释这一行为的失败模式。**抗原盲视**源于模型从抗体框架上下文而非抗原信息中推导预测结果,导致无论目标抗原如何,生成的CDR几乎完全相同。**词汇崩塌**将每个位置的预测氨基酸减少到3到5个,远低于天然序列中的真实分布。此外,任何使用标准**逐位置交叉熵**训练的模型都会收敛到位置边际分布,这使得模型无法产生抗原特异性的序列预测。我们提出了一种名为**AgForce**的新型编码器-解码器架构,它使用图神经网络(GNN)作为编码器,并采用专门的解码器进行序列-结构协同设计。具体来说,我们应用了框架丢弃(framework dropout)、门控瓶颈(gated bottleneck)和双曲交叉注意力(hyperbolic cross attention),以防止抗体捷径路径。在解码器中,一个带有类似Potts成对耦合的混合密度网络(MDN)序列头,结合退火多选学习(aMCL),用多分量分布取代了交叉熵目标函数,其最优解不同于位置边际分布。一个抗原循环一致性头通过序列解码器路由梯度,迫使预测分布编码抗原身份。AgForce在Chimera-Bench基准上同时实现了最佳的绑定质量和序列恢复,与最强的序列基线相比,氨基酸恢复率提高了8%,同时在所有界面指标上超越了基线,并使GNN方法的有效词汇量几乎翻了一番。源代码可在以下地址获取:https://github.com/mansoor181/ag-force.git
## 1 引言
抗体通过其互补决定区(CDR)识别并中和外来抗原,CDR是形成主要结合界面的六个高变环(Potocnakova等,2016 (https://arxiv.org/html/2605.21610#bib.bib141))。其中,CDR-H3表现出最大的序列和结构多样性,并且对抗原特异性贡献最大(Chothia和Lesk,1987 (https://arxiv.org/html/2605.21610#bib.bib276))。设计能够结合目标表位的CDR序列和主链结构是治疗性抗体工程中的一个核心挑战(Hummer等,2022 (https://arxiv.org/html/2605.21610#bib.bib57)),越来越多的深度生成模型通过以抗原结构为条件来解决这个问题(Luo等,2022 (https://arxiv.org/html/2605.21610#bib.bib250);Kong等,2023a (https://arxiv.org/html/2605.21610#bib.bib254), b (https://arxiv.org/html/2605.21610#bib.bib249);Verma等,2023 (https://arxiv.org/html/2605.21610#bib.bib129);Wu等,2025b (https://arxiv.org/html/2605.21610#bib.bib199);Abir等,2025 (https://arxiv.org/html/2605.21610#bib.bib257);Tan等,2025 (https://arxiv.org/html/2605.21610#bib.bib252))。一个自然的预期是,以抗原为条件应该产生针对目标量身定制的设计。然而,最近的证据表明并非如此:单字频率本身就解释了大多数预测(Kong等,2023b (https://arxiv.org/html/2605.21610#bib.bib249)),BLOSUM替换得分能够像学习到的似然一样准确地预测模型输出(Uçar和Sormanni,2025 (https://arxiv.org/html/2605.21610#bib.bib282)),移除抗原链几乎不改变预测结果(Li等,2025 (https://arxiv.org/html/2605.21610#bib.bib332)),并且包含抗原序列并不能提高设计质量(Kim等,2024 (https://arxiv.org/html/2605.21610#bib.bib333))。这些发现指出了现有条件机制的系统性失败,但之前的研究并未找出根本原因或提出有原则的补救措施。
我们诊断出三种因果关联的失败模式,它们解释了为什么最强的CDR设计范式——等变图神经网络结合贪心解码——未能以抗原信息为条件。**抗原盲视**:我们评估的所有方法在抗原接触位置上的恢复率都显著低于非接触位置,而且一个无抗原的基线实现了最强的结合质量,这证实了现有条件机制贡献甚微。**词汇崩塌**:采用贪心解码的GNN方法在每个位置产生的有效词汇量仅为3到5个氨基酸,远低于天然多样性,且罕见但生化上重要的残基几乎从未被预测到。**交叉熵天花板**提供了一个统一的解释:标准的逐位置交叉熵损失函数,其最优解位于位置边际分布,与条件信号无关,这迫使模型忽略抗原,并将注意力集中在每个位置的少数几个氨基酸上。
参见标题 参见标题
图1:(a) 词汇崩塌:CDR H3的真实氨基酸分布热图,dyMEAN的预测,以及我们提出的模型AgForce的预测。(b) AAR与有效词汇量的关系。
为了解决这些失败模式,我们引入了一种名为AgForce的新型编码器-解码器架构,它使用E(3)图神经网络(EGNN)作为编码器,并采用专门的解码器进行序列-结构协同设计。解码器使用一个带有类似Potts成对耦合的混合密度网络,退火多选学习取代了标准的序列头,通过实现分量专业化,可证明地打破了交叉熵天花板。类似地,一个框架丢弃模块在训练期间破坏了抗体上下文,一个抗原一致性头通过序列解码器路由梯度,以强制施加抗原条件。针对词汇崩塌,多分量MDN允许跨分量进行多样化预测,而GDPP谱正则化则惩罚偏离天然多样性的行为。
我们的贡献:
1. 1. 一个**诊断框架**,识别出等变GNN方法在CDR设计中的三种因果关联的失败模式,并证明逐位置交叉熵无法产生抗原特异性预测,这一点已在跨越五个架构家族的基线模型上得到经验验证。
2. 2. **AgForce**,为每个诊断出的失败模式引入了针对性的干预措施:一个带有aMCL训练的MDN-Potts序列头、框架丢弃、抗原一致性损失,以及带有双曲交叉注意力的虚拟节点增强等变消息传递。在Chimera-Bench基准上,AgForce同时实现了最佳的绑定质量和序列恢复,与最强的序列基线相比,氨基酸恢复率提高了8%,同时在所有界面指标上超越了最强的绑定基线,并使GNN方法的有效词汇量几乎翻了一番。
## 2 相关工作
#### 等变GNN方法。
MEAN(Kong等,2023a (https://arxiv.org/html/2605.21610#bib.bib254))将CDR设计形式化为具有多通道注意力的E(3)-等变图翻译。dyMEAN(Kong等,2023b (https://arxiv.org/html/2605.21610#bib.bib249))将其扩展到全原子设计,并引入了影子互补位损失。RAAD(Wu等,2025b (https://arxiv.org/html/2605.21610#bib.bib199))添加了关系感知边特征和对比特异性损失。这些方法通过空间消息传递以抗原为条件,并在所有范式中实现了最高的序列恢复率。RefineGNN(Jin等,2022b (https://arxiv.org/html/2605.21610#bib.bib131))在没有抗原输入的情况下自回归生成CDR,却在所有基线中实现了最佳的绑定指标。多项独立研究证实了这种条件失败:BLOSUM替换得分能够像学习到的似然一样准确地预测模型输出(Uçar和Sormanni,2025 (https://arxiv.org/html/2605.21610#bib.bib282)),移除抗原链几乎不改变预测结果(Li等,2025 (https://arxiv.org/html/2605.21610#bib.bib332)),并且一个BLOSUM查找表在结合物富集方面优于深度学习方法(Chinery等,2024 (https://arxiv.org/html/2605.21610#bib.bib334))。虽然这些研究记录了问题,但它们未能找出根本原因并提出方法论上的干预措施。
#### 扩散、流和ODE方法。
DiffAb(Luo等,2022 (https://arxiv.org/html/2605.21610#bib.bib250))将CDR生成建模为SE(3)×分类空间上的扩散,而AbFlowNet(Abir等,2025 (https://arxiv.org/html/2605.21610#bib.bib257))用GFlowNet轨迹平衡取代了扩散。AbMEGD(Chen等,2025 (https://arxiv.org/html/2605.21610#bib.bib259))添加了多尺度编码,dyAb(Tan等,2025 (https://arxiv.org/html/2605.21610#bib.bib252))应用了流匹配,AbODE(Verma等,2023 (https://arxiv.org/html/2605.21610#bib.bib129))使用了联合ODE,而RADAb(Wang等,2024 (https://arxiv.org/html/2605.21610#bib.bib123))用检索增强了扩散。FlowDesign(Wu等,2025a (https://arxiv.org/html/2605.21610#bib.bib301))采用了与我们类似的“诊断-然后修复”方法。这些基于采样的方法保持了更高的氨基酸多样性,但序列恢复率远低于GNN方法。
#### 多模态序列预测与条件机制。
TERMinator(Li等,2023 (https://arxiv.org/html/2605.21610#bib.bib330))从GNN编码器中推导出用于基于MCMC序列设计的Potts能量表。PottsMPNN(Birnbaum和Keating,2026 (https://arxiv.org/html/2605.21610#bib.bib331))为ProteinMPNN添加了成对Potts监督,提高了热力学稳定性,其效果超出了天然序列恢复所能捕捉的范围。混合密度网络(Bishop,1994 (https://arxiv.org/html/2605.21610#bib.bib329))对多模态分布进行建模,但尚未应用于离散氨基酸预测。退火多选学习(Perera等,2024 (https://arxiv.org/html/2605.21610#bib.bib325))解决了假设集成中的赢家通吃崩溃问题,但尚未应用于生物序列。我们的MDN-Potts头将这些结合起来:混合分量与学习到的耦合矩阵通过置信传播进行解码,并通过aMCL进行端到端训练。对于条件机制,无分类器指导(Ho和Salimans,2022 (https://arxiv.org/html/2605.21610#bib.bib335))在训练期间丢弃条件信号,以强制实现真正的条件分布,但尚未用于抗原特异性。RAAD的对比损失(Wu等,2025b (https://arxiv.org/html/2605.21610#bib.bib199))作用于嵌入而非解码后的序列。我们的抗原分类损失直接作用于预测的序列分布,通过解码器路由梯度。
## 3 预备知识
### 3.1 任务定义
我们采用Chimera-Bench(Ahmed等,2026 (https://arxiv.org/html/2605.21610#bib.bib1))中的形式化定义。给定一个抗原结构 \(A=\{(s_j, \mathbf{x}_j) \mid j \in V_A\}\)、一个表位规格 \(E \subseteq V_A\),以及一个抗体框架 \(F=\{(s_i, \mathbf{x}_i) \mid i \in V_{\text{FR}}\}\),任务是设计CDR残基 \(R=\{(s_k, \mathbf{x}_k) \mid k \in V_{\text{CDR}}\}\),使其最大化条件似然,同时满足表位接触约束:
\[
R^* = \operatorname*{arg\,max}_{R} \; p_\theta\!\bigl(R \mid A, E, F\bigr), \quad \text{s.t.} \; \; \mathcal{C}(R, A) \subseteq E, \; \; \mathcal{C}(R, A) \neq \emptyset
\]
其中每个残基由其氨基酸类型 \(s_k \in \{1, \dots, 20\}\) 和 \(C_\alpha\) 坐标 \(\mathbf{x}_k \in \mathbb{R}^3\) 表示,并且 \(\mathcal{C}(R, A) = \{j \in V_A \mid \exists k \in V_{\text{CDR}}: \|\mathbf{x}_k - \mathbf{x}_j\| < 6\text{Å}\}\) 表示接触集。
### 3.2 等变图神经网络
**定义 1** (E(n)-等变性)。令 \(g = (R, t) \in E(3)\) 作用于所有坐标 \(\mathbf{x}_i \in \mathbb{R}^3\) 为 \(g \cdot \mathbf{x}_i = R\mathbf{x}_i + t\)。对于所有图节点上的坐标 \(\mathbf{X} \in \mathbb{R}^{n \times 3}\),一个函数 \(\phi: (\mathbf{X}, \mathbf{H}) \mapsto (\mathbf{X}', \mathbf{H}')\) 是等变的,如果存在 \(g \in E(3)\) 使得 \(\phi(g \cdot \mathbf{X}, \mathbf{H}) = (g \cdot \mathbf{X}', \mathbf{H}')\),其中 \(\mathbf{H}\) 是标量节点特征。这等价于要求 \(\mathbf{X}'\) 的平移和旋转与输入坐标一致,而 \(\mathbf{H}'\) 保持不变。
**定理 1** (交叉熵天花板)。对于任何条件分布 \(p(y | x)\),最小化预期经验风险 \(\mathbb{E}_{x,y \sim \mathcal{D}}[-\log q_\theta(y | x)]\) 的解是条件期望 \(q^*_\theta(y | x) = p(y | x)\)。然而,对于离散输出空间 \(\mathcal{Y} = \{1, \dots, 20\}\),如果模型容量有限或训练数据中特定 \(x\) 的样本很少,那么逐位置交叉熵损失的最优解是位置上的边际分布 \(p_{\text{marg}}(y) = \sum_x p(x) p(y | x)\)。由于 \(p_{\text{marg}}(y)\) 与条件输入 \(x\) 无关,任何使用这种损失训练的模型都无法产生真正的条件预测,从而导致了抗原盲视。
(证明见附录A.1)
**推论 1** (词汇崩塌的一个必要条件)。在定理1的条件下,对于每个位置 \(i\),最优预测分布 \(q^*_\theta(s_i | \cdot)\) 集中在具有最高边际概率的少数几个氨基酸上。具体来说,有效词汇量 \(V_{\text{eff}} = |\{s \in \{1, \dots, 20\}: q^*_\theta(s | \cdot) > \epsilon\}| \leq 3\) 当 \(p_{\text{marg}}\) 是高度倾斜的时。相似文章
通过分类器引导的胚系吸收离散扩散实现抗体序列的条件生成
本文介绍了一种具有新颖“胚系吸收”特性的离散扩散模型,以改善抗体序列的条件生成。该模型解决了蛋白质语言模型中的胚系偏差问题,并在优化抗体结合亲和力和可开发性方面表现出优于现有方法(如 EvoProtGrad)的性能。
ConTact:通过显式界面推理实现接触优先的抗体CDR设计
ConTact 提出了一种接触优先(contact-then-act)架构用于抗体CDR设计,该架构将任务显式分解为界面推理、接触预测和接触门控序列生成三个阶段,在Chimera-Bench基准测试上实现了最先进的结构质量和表位感知能力。
可控分子生成基础模型
提出CoMole,一种基于基序感知图扩散和强化学习的可控分子生成基础模型,在材料和药物发现基准测试中实现了卓越的可控性。
代理式神经架构发现:AIRA-Compose与AIRA-Design
本文介绍了AIRA-Compose和AIRA-Design,这两个双重框架利用AI智能体自主发现超越标准Transformer且高效扩展的神经架构。
神经数据不再无聊:代理型AI在数据复用中的基准测试
本文对代理型AI系统在加载、理解和重新格式化碎片化的神经科学数据任务上进行基准测试,发现尽管代理在子任务上表现良好,但很少能实现完全无错误的端到端解决方案,人工监督仍然必要。