解码3D分子表面的指纹特征以精确预测表位

arXiv cs.LG 2026/06/24 04:00 论文

epitope-prediction molecular-surface protein-interaction transformer antibody antigen 3d-modeling

摘要

SurfBind是一种面向表面的表位预测学习框架，采用基于Transformer的架构，结合分块表面建模和结合物感知的交叉注意力，在表位识别基准上达到了最先进的性能。

arXiv:2606.23830v1 公告类型：新摘要：分子表面编码了决定抗体-抗原识别的几何和物理化学模式，这对表位预测至关重要。然而，现有方法依赖于序列或主链结构，难以捕捉不连续、表面驱动的表位。本研究提出了SurfBind，一种直接操作分子表面表示的表位预测表面中心学习框架。SurfBind通过基于Transformer的架构整合几何和物理化学线索，结合分块表面建模、结合物感知的交叉注意力以及层次化由粗到细的预测范式。在包括SAbDab和DB5.5在内的具有挑战性的表位识别基准上的实验表明，SurfBind达到了最先进的性能，并在未见抗体和构象状态下展现出强大的泛化能力，突显了交互感知表面建模对于理解蛋白质-蛋白质相互作用关键机制的价值。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:48

# 解析3D分子表面指纹以精确预测表位 来源: https://arxiv.org/html/2606.23830 ,Weihao XuanThe University of TokyoTokyoJapan,Jure LeskovecStanford UniversityPalo AltoUSA,Yejin ChoiStanford UniversityPalo AltoUSAandLi Erran LiAmazon AWSPalo AltoUSA \(2026\) ###### 摘要\. 分子表面编码了决定抗体-抗原识别的几何和物理化学模式，这对于表位预测至关重要。然而，现有方法依赖序列或主链结构，难以捕捉不连续的、由表面驱动的表位。本研究提出SurfBind，一种以表面为中心的学习框架，直接对分子表面表示进行操作以实现表位预测。SurfBind通过基于Transformer的架构、补丁级表面建模、结合感知的交叉注意力以及分层从粗到细的预测范式，整合了几何和物理化学线索。在具有挑战性的表位识别基准测试（包括SAbDab和DB5.5）上的实验表明，SurfBind实现了最先进的性能，并在未见过的抗体和构象状态下展现出强泛化能力，凸显了交互感知表面建模对于理解蛋白质-蛋白质相互作用关键机制的价值。3D表面建模，蛋白质-蛋白质相互作用 ††journalyear:2026††copyright:cc††conference:Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.2; August 09–13, 2026; Jeju Island, Republic of Korea††booktitle:Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.2 \(KDD ’26\), August 09–13, 2026, Jeju Island, Republic of Korea††doi:10.1145/3770855.3818825††isbn:979-8-4007-2259-2/2026/08††ccs:Applied computing Molecular structural biology## 1.引言 参见图注 图1.我们抗原结合位点预测模型的示意图。首先，通过快速采样机制(a)将抗原表面采样成点云，并由点云网络(b,c)提取细粒度特征。然后，点云被下采样为有序补丁(d,e)。同时，抗体使用蛋白质语言模型(PLMs)或结构编码器(f)表示。抗原和抗体表示随后输入SurfFormer以交换相互信息并实现结合感知(g)。最后，通过插值将抗原特征从子采样补丁传播回原始点(i)，从而在点和补丁级别实现多分辨率表位预测(h,j,k)。

蛋白质是生物系统的基本组成部分，它们最关键的功能，尤其是在免疫识别和信号传导中，通常是通过特定的蛋白质-蛋白质相互作用(PPIs)介导的(Deng et al.,2025 (https://arxiv.org/html/2606.23830#bib.bib136); Wu and Li,2026 (https://arxiv.org/html/2606.23830#bib.bib135))。在抗体-抗原结合中，这些相互作用由表位控制：抗原表面上的局部区域，其几何形状和物理化学组成决定了结合特异性和亲和力。因此，精确的表位预测对于抗体工程、免疫疗法和疫苗设计至关重要(Esmaielbeiki et al.,2016 (https://arxiv.org/html/2606.23830#bib.bib18); Peters et al.,2020 (https://arxiv.org/html/2606.23830#bib.bib12))。然而，由于表位的复杂性和异质性，这一任务仍然具有挑战性：表位通常序列不连续、在蛋白质表面分布稀疏，并且对局部表面几何和化学非常敏感(Zeng et al.,2023 (https://arxiv.org/html/2606.23830#bib.bib40); Wu,2024 (https://arxiv.org/html/2606.23830#bib.bib9);wusurfdesign; Wu et al.,2023a (https://arxiv.org/html/2606.23830#bib.bib131),2026b (https://arxiv.org/html/2606.23830#bib.bib142),2022b (https://arxiv.org/html/2606.23830#bib.bib141); Li et al.,2026 (https://arxiv.org/html/2606.23830#bib.bib140))。现有的表位预测计算方法主要依赖序列或主链中心的结构特征(Rives and others,2021 (https://arxiv.org/html/2606.23830#bib.bib94); Zhang et al.,2022 (https://arxiv.org/html/2606.23830#bib.bib148); Clifford et al.,2022 (https://arxiv.org/html/2606.23830#bib.bib17); Wu,2025 (https://arxiv.org/html/2606.23830#bib.bib7); Wu et al.,2021 (https://arxiv.org/html/2606.23830#bib.bib6),2026a (https://arxiv.org/html/2606.23830#bib.bib139),2025 (https://arxiv.org/html/2606.23830#bib.bib137); Jiang et al.,2025 (https://arxiv.org/html/2606.23830#bib.bib138))。虽然这些表示在捕捉全局蛋白质特性方面有效，但通常难以解析直接介导抗体-抗原识别的细粒度表面模式。相比之下，分子表面编码了支撑结合相互作用的空间排列和物理化学互补性(Mylonas et al.,2021 (https://arxiv.org/html/2606.23830#bib.bib45); Riahi et al.,2023 (https://arxiv.org/html/2606.23830#bib.bib118))。然而，表面信息往往被视为辅助而非首要建模目标，从而限制了现有方法精确定位结合位点并泛化到未知表位的能力。除此之外，表位预测还面临额外挑战。首先，表位的形成本质上依赖于相互作用：相同的抗原表面可能根据抗体上下文暴露不同的结合区域，这使得不依赖伙伴的预测不可靠(Potocnakova et al.,2016 (https://arxiv.org/html/2606.23830#bib.bib15); Soria-Guerra et al.,2015 (https://arxiv.org/html/2606.23830#bib.bib13))。其次，有意义的表位信号通常微妙且局部化，要求模型在多个空间尺度上推理，从粗表面区域到细粒度原子邻域。最后，模型必须能泛化到不同的抗体和抗原家族，其中结合界面在大小、形状和化学组成上可能差异显著(Desai and Kulkarni-Kale,2014 (https://arxiv.org/html/2606.23830#bib.bib14); Sanchez-Trincado et al.,2017 (https://arxiv.org/html/2606.23830#bib.bib16))。本工作引入SurfBind，它明确建模与结合相关的表面模式和跨分子依赖关系。通过整合几何表面编码、结合感知上下文建模以及分层从粗到细的预测，弥合了表面预训练与下游PPI任务之间的差距。具体来说，SurfBind将分子表面划分为不规则局部补丁，这些补丁尊重表面点云的稀疏性和冗余性，并通过Morton排序进行组织以实现高效的全局推理。随后采用SurfFormer++对表面补丁之间的长程依赖关系进行建模，并融入几何先验。关键在于，SurfBind超越了单一表面编码，引入结合感知的交叉注意力，使得交互分子伙伴之间的信息能够显式交换。为了鼓励对齐交互的表示，SurfBind利用离散潜在建模和多级重建目标，这些目标不仅针对点统计量，还针对表面几何和物理化学性质。在标准表位预测基准上的评估表明，显式建模表面-结合剂相互作用可提高准确性，增强对未知表位的泛化能力，并在不同抗体上下文中展现出更强的鲁棒性。这些结果凸显了交互驱动的表面建模对于表位发现的重要性，并推动了计算抗体-抗原界面识别的最新技术水平。

## 2.方法

### 2.1. 预备知识与数学符号

#### 任务描述
表位，也称为抗原决定簇(ADs)，是抗原表面的特定区域，能够激活人体免疫系统对抗病原体或异常细胞(Zeng et al.,2023 (https://arxiv.org/html/2606.23830#bib.bib40); Wu,2026 (https://arxiv.org/html/2606.23830#bib.bib8))。它们的表征和鉴定对于设计治疗或诊断性抗体、开发免疫诊断测试以及推进基于表位的肽疫苗以对抗传染病具有重要意义(Bukhari et al.,2022 (https://arxiv.org/html/2606.23830#bib.bib39))。此外，ADs可能影响但常常被忽略的是改善RNA疫苗的功效。它们的特性决定了RNA疫苗能否引发免疫反应以及将产生何种反应。表位分为两类：B细胞表位和T细胞表位。B细胞表位(BCEs)是B细胞识别的抗原片段，具有溶剂暴露区域，可分为构象型或线性型。线性BCEs由连续肽和残基组成，而构象型BCEs则由非连续残基的溶剂暴露原子补丁组成，分别称为连续和不连续BCEs。实验技术如肽微阵列和噬菌体展示文库有助于识别线性BCEs(Qi et al.,2021 (https://arxiv.org/html/2606.23830#bib.bib34))。然而，约90%的天然BCEs是不连续的，在没有复合结构的情况下绘制构象型BCEs更加困难，因为其组成残基在序列中可能相距甚远，但在蛋白质结构中空间上位于一起。氢/氘交换实验可以推断这类BCEs，但当结合效应超出结合位点时，变构结构扰动会带来干扰(Deng et al.,2017 (https://arxiv.org/html/2606.23830#bib.bib36))。或者，采用计算方法如同源建模、对接模拟和分子动力学模拟。尽管这些方法取得了成功，但大多数传统方法耗时且需要蛋白质结构和功能方面的专业知识。

#### 蛋白质表面表示。
我们遵循既定的表面构建和预处理流程(Sverrisson et al.,2021 (https://arxiv.org/html/2606.23830#bib.bib68); Mylonas et al.,2021 (https://arxiv.org/html/2606.23830#bib.bib45); Stebliankin et al.,2023 (https://arxiv.org/html/2606.23830#bib.bib65); Li and Liu,2023 (https://arxiv.org/html/2606.23830#bib.bib46); Wu and Li,2024 (https://arxiv.org/html/2606.23830#bib.bib177)) 以实现有效的蛋白质表面学习。一个具有N个原子的蛋白质表示为Va=\{\(xia,tia\)\}i=1N，其中xia∈R3表示原子坐标，tia∈R6编码其在列表[C,H,O,N,S,Se]中的独热化学类型。蛋白质表面被建模为定义在原子中心上的光滑符号距离函数(SDF)的水平集。每个表面点xis∈R3通过对原子坐标进行随机采样初始化，并通过基于梯度的优化投影到目标SDF水平集上。表面法向量nis在xis处计算为归一化的SDF梯度。移除内部点后，得到的蛋白质表面表示为有向点云S=\{\(xis,nis\)\}i=1M。每个表面点附带一个化学特征向量his∈Rφh。为了计算his，残基级信息从基于Cα距离的Kres个最近残基\{\(xjR,tjR\)\}j=1Kres通过轻量级几何聚合网络进行聚合。这种以残基为中心的表示在保持强经验性能的同时，提供了局部化学环境的高效近似。

#### 表面补丁划分与排序。
为了实现可扩展建模，表面点云Xs=\{xis\}i=1M被划分为局部补丁。具体地，使用最远点采样(FPS)选择子集补丁中心Xc∈RρM×3，下采样比为ρ。对于每个中心点，通过从Xs中选择其Kp个最近邻，形成局部补丁Xp∈RρM×Kp×3。由于点云缺乏规范排序，我们为补丁引入了几何序列结构。补丁中心Xc使用Morton(Z阶)空间填充曲线映射到一维排序，生成索引序列O∈NρM×1。补丁Xp根据O排列，这保持了局部空间连贯性，同时支持下游模型中的序列化处理(Chen et al.,2023 (https://arxiv.org/html/2606.23830#bib.bib58))。

### 2.2. 骨干架构
为了捕捉蛋白质表面固有的层次粒度（即点级和补丁级特征），我们在多个尺度上分层提取表面细节。然后我们提出SurfFormer++，它结合了交叉注意力模块，以实现配体和受体补丁之间充分的信息交换。

#### 点云网络。
我们采用标准的表面点云网络，从有向表面点云S=\{\(xis,nis\)\}i=1M中提取局部逐点表面表示。该网络遵循准测地卷积范式(Sverrisson et al.,2021 (https://arxiv.org/html/2606.23830#bib.bib68))，其中每个表面点xis配备一个局部正交标架(\(nis,uis,ois\))(Duff et al.,2017 (https://arxiv.org/html/2606.23830#bib.bib53))，并从由滤波窗口尺寸σd决定的测地邻域N\(i\)中聚合特征。使用相对几何描述子pij=\(xis−xjs\)⊤·[nis⊕uis⊕ois]在局部坐标系中参数化邻居交互，并由近似测地距离dij的高斯函数w\(dij\)加权。堆叠L1层操作获得点级表面特征\{his\}i=1M，随后用于补丁级建模。

#### SurfFormer++。
通过聚合每个表面补丁内的逐点特征来构建补丁级表示。具体地，对于补丁Xip，点特征\{hjs\(L1\)\}被池化并映射到初始补丁嵌入hip∈Rφp。全局 i

解码3D分子表面的指纹特征以精确预测表位

相似文章

曲率感知势能面用于蛋白质-配体结合亲和力预测

曲率引导的几何表示用于蛋白质-配体结合亲和力预测

大规模数据集与基准：蛋白质-配体模型学习的是结合位点还是仅仅结合可能性？

深度学习在蛋白质复合物预测与设计中的应用

Surflo：具有全局状态的一致3D表面流模型

提交意见反馈