曲率引导的几何表示用于蛋白质-配体结合亲和力预测

arXiv cs.LG 论文

摘要

本文提出RicciBind,一种集成里奇曲率和最优传输的几何表示框架,用于蛋白质-配体结合亲和力预测,在多个基准测试中展示了卓越的准确性和可解释性。

arXiv:2606.14159v1 公告类型: 新 摘要:蛋白质-配体结合亲和力(PLA)预测在药物发现中至关重要。尽管基于机器学习的方法取得了显著进展,但现有方法难以同时表征局部几何组织和全局协调的跨分子相互作用,限制了其建模复杂结合机制的能力。在此,我们提出RicciBind,一种几何表示框架,它结合了曲率引导的层次结构学习与基于最优传输(OT)的跨域对齐来建模分子相互作用。具体来说,RicciBind利用里奇曲率捕获分子结构内的局部相互作用紧密性,增强结构感知能力,并将原子相互作用组织成曲率感知的层次表示。随后,基于OT的聚类匹配机制在几何约束下对齐异构域中的蛋白质和配体聚类,从而实现全局一致的对应关系,并揭示超出局部邻域的高阶相互作用模式。通过将曲率引导的结构编码与OT驱动的跨域对齐相结合,RicciBind有效地建模了复杂的相互作用语义,并显著提高了结合亲和力预测的准确性和可解释性。大量实验表明,RicciBind在PLA基准测试和虚拟筛选任务中取得了优越的预测性能和泛化能力。消融研究进一步证实了里奇曲率在增强分子相互作用表示中的关键作用。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:11

# 曲率引导的几何表示用于蛋白质-配体结合亲和力预测  
来源:https://arxiv.org/html/2606.14159  

任传贤、李宇浩、黄子琪、潘越、唐铭哲、严洪  
IEEE会员,IEEE会士  

本研究部分受国家重点研发计划(2024YFA1011900)、国家自然科学基金(62376291)、广东省基础与应用基础研究基金(2023B1515020004)、广州市科技计划(2024A04J6413)、中央高校基本科研业务费专项资金(中山大学,24xkjc013)、香港创新科技署(ITC,InnoHK项目CIMDA)及香港城市大学数字医学研究所(项目9229503)资助。  

作者单位:李帅、任传贤、李宇浩、黄子琪、潘越、唐铭哲为中山大学数学学院,广州510275;严洪为香港城市大学电机工程系,香港九龙达之路83号。通讯作者:任传贤([email protected])。  

###### 摘要  

蛋白质-配体结合亲和力(PLA)预测是药物发现中的关键问题。尽管基于机器学习的方法取得了显著进展,现有方法仍难以同时刻画局部几何组织与全局协调的跨分子相互作用,限制了其建模复杂结合机制的能力。本文提出RicciBind,一种几何表示框架,将曲率引导的分层结构学习与基于最优传输(OT)的跨域对齐相结合,以建模分子相互作用。具体地,RicciBind利用里奇曲率捕获分子结构内的局部相互作用紧密程度,增强结构感知能力,并将原子交互组织成曲率感知的分层表示。随后,基于OT的聚类匹配机制在几何约束下对齐蛋白质与配体聚类,实现跨异质域的全局一致性对应,揭示超越局部邻域的高阶交互模式。通过将曲率引导的结构编码与OT驱动的跨域对齐相结合,RicciBind有效建模了复杂的交互语义,显著提升了结合亲和力预测的准确性与可解释性。大量实验表明,RicciBind在PLA基准测试和虚拟筛选任务中均取得了优越的预测性能与泛化能力。消融研究进一步证实了里奇曲率在增强分子交互表示中的关键作用。  

\{IEEE关键字\} 蛋白质-配体结合亲和力、里奇曲率、图神经网络、最优传输。  

## 1 引言  

\\IEEEPARstart 蛋白质-配体结合亲和力(PLA)预测是药物发现中的关键问题,PLA定量衡量配体(小分子)与蛋白质(靶标)之间相互作用的强度。准确的PLA预测对于识别有前景的治疗候选物至关重要,然而传统实验方法成本高且耗时,单个蛋白质-配体对往往需要数年努力和大量资源[1 (https://arxiv.org/html/2606.14159#bib.bib1)],[2 (https://arxiv.org/html/2606.14159#bib.bib2)],[3 (https://arxiv.org/html/2606.14159#bib.bib3)]。该领域的快速进展通过促进有前景治疗候选物的识别,显著提升了药物发现效率。  

近年来,深度学习技术因其强大的表示能力和从原始数据中自动学习相关特征的能力而受到广泛关注。通过有效识别并利用任务相关信息,这些模型实现了高效准确的预测,成为PLA预测领域的研究核心。迄今为止,已开发出多种用于预测PLA的深度学习方法[3 (https://arxiv.org/html/2606.14159#bib.bib3)],[4 (https://arxiv.org/html/2606.14159#bib.bib4)],[5 (https://arxiv.org/html/2606.14159#bib.bib5)],[6 (https://arxiv.org/html/2606.14159#bib.bib6)],[7 (https://arxiv.org/html/2606.14159#bib.bib7)]。这些方法大致可分为两类:无结构模型[4 (https://arxiv.org/html/2606.14159#bib.bib4)],[5 (https://arxiv.org/html/2606.14159#bib.bib5)]和基于结构的模型[3 (https://arxiv.org/html/2606.14159#bib.bib3)],[6 (https://arxiv.org/html/2606.14159#bib.bib6)],[7 (https://arxiv.org/html/2606.14159#bib.bib7)]。这些方法的基本区别在于是否显式地结合了原子间相互作用和三维(3D)结构信息。  

参见图注  
图1:蛋白质-配体相互作用建模的深度学习范式示意图。蛋白质-配体复合物使用无结构的1D/2D表示或基于结构的3D表示,并通过深度学习网络学习交互模式,支持结合亲和力预测和虚拟筛选等下游任务。  

无结构方法[4 (https://arxiv.org/html/2606.14159#bib.bib4)],[5 (https://arxiv.org/html/2606.14159#bib.bib5)],[8 (https://arxiv.org/html/2606.14159#bib.bib8)],[9 (https://arxiv.org/html/2606.14159#bib.bib9)],[10 (https://arxiv.org/html/2606.14159#bib.bib10)]不依赖蛋白质和配体的3D结构信息或显式原子间相互作用。如图1 (https://arxiv.org/html/2606.14159#S1.F1)所示,配体通常编码为简化分子线性输入规范(SMILES)字符串、2D分子图或2D网格,而蛋白质则由氨基酸序列表示。  

相比之下,基于结构的方法[11 (https://arxiv.org/html/2606.14159#bib.bib11)],[12 (https://arxiv.org/html/2606.14159#bib.bib12)],[13 (https://arxiv.org/html/2606.14159#bib.bib13)],[14 (https://arxiv.org/html/2606.14159#bib.bib14)],[15 (https://arxiv.org/html/2606.14159#bib.bib15)],[16 (https://arxiv.org/html/2606.14159#bib.bib16)],[17 (https://arxiv.org/html/2606.14159#bib.bib17)]在PLA预测中显式结合蛋白质-配体复合物的3D结构及其物理化学交互,其中3D图神经网络(3D-GNN)成为主流范式。在这些方法中,蛋白质-配体复合物被建模为空间交互图,自然融合了分子几何和空间邻近关系,从而捕获信息丰富的结构与交互模式。通过基于相对坐标或原子间距离定义的消息传递机制,3D-GNN天然具有对全局旋转和平移的不变性。得益于这些优势,基于3D-GNN的方法在PLA预测中日益受到关注。  

在基于结构的PLA预测方法基础上,最近的进展表明,3D分子图的分层表示结合多级特征提取可以有效降低计算复杂度,同时提升预测性能[18 (https://arxiv.org/html/2606.14159#bib.bib18)],[19 (https://arxiv.org/html/2606.14159#bib.bib19)],[20 (https://arxiv.org/html/2606.14159#bib.bib20)]。值得注意的是,CheapNet[20 (https://arxiv.org/html/2606.14159#bib.bib20)]通过可微分池化[21 (https://arxiv.org/html/2606.14159#bib.bib21)]捕获高阶分子表示,在PLA预测任务中取得了强劲性能。然而,尽管取得了这些进展,充分刻画分子相互作用仍需要理解分子图的内在几何性质。但现有的分层方法并未显式结合这些性质,导致分子几何表示不完整,限制了捕获复杂跨尺度依赖关系的能力,从而制约了模型的表达力和可解释性。  

为解决此局限,有必要采用能够显式刻画分子图内在结构的几何描述符,超越传统特征聚合。在此类描述符中,里奇曲率——微分几何中的一个基本概念——提供了通过里奇流演化来分析和增强图几何的理论框架。它同时捕获图的局部连接模式和全局结构组织,因此特别适合基于图的建模。其离散形式,包括Ollivier-Ricci曲率(ORC)[22 (https://arxiv.org/html/2606.14159#bib.bib22)]和Forman-Ricci曲率(FRC)[23 (https://arxiv.org/html/2606.14159#bib.bib23)],有效捕获图的结构特征,并已成功应用于社区检测[24 (https://arxiv.org/html/2606.14159#bib.bib24)],[25 (https://arxiv.org/html/2606.14159#bib.bib25)]、互联网拓扑分析[26 (https://arxiv.org/html/2606.14159#bib.bib26)]和生物分子特征表示[27 (https://arxiv.org/html/2606.14159#bib.bib27)],[28 (https://arxiv.org/html/2606.14159#bib.bib28)]等多个领域。值得注意的是,ORC在解释消息传递图神经网络中的过平滑和过挤压现象方面具有优势[29 (https://arxiv.org/html/2606.14159#bib.bib29)]。近年来,曲率增强的图神经网络领域取得了显著发展[30 (https://arxiv.org/html/2606.14159#bib.bib30),31 (https://arxiv.org/html/2606.14159#bib.bib31)]。将ORC集成到图神经网络中已被证明是在各种合成和真实图(尤其是大规模密集图)中的成功策略[7 (https://arxiv.org/html/2606.14159#bib.bib7)]。  

受里奇曲率同时捕获图的局部连接和全局结构组织能力的启发,我们提出RicciBind,一种由里奇曲率引导的分层分子表示框架,将几何深度学习与最优传输(OT)理论相结合,用于蛋白质-配体相互作用建模和结合亲和力预测。与现有基于结构的方法不同,RicciBind融合ORC编码的几何和拓扑信息,以精炼原子级表示并生成几何一致的聚类级表示。此外,RicciBind将蛋白质和配体视为两个异质结构域,并采用基于OT的聚类匹配机制计算蛋白质与配体聚类分布之间的双向跨域传输计划,从而实现关键功能聚类的几何一致性对齐,同时抑制不相关聚类,从而有效刻画复杂的跨域交互模式。RicciBind的主要贡献总结如下。  

- • 设计了一个曲率感知的图嵌入模块,以蛋白质-配体相互作用图为输入,引入ORC作为拓扑描述符,增强原子级节点表示。  
- • 提出一个曲率驱动的聚类模块,在里奇曲率引导下自适应地将原子分配到聚类,产生与分子图几何-拓扑结构更一致的高阶表示。  
- • 据我们所知,这是首次将蛋白质和配体视为两个不同的异质结构域,并利用最优传输理论来建模蛋白质-配体结合复合物,为关键功能交互聚类的对齐和选择提供了理论支持。  
- • 在多个公开数据集上全面评估RicciBind,结果表明其在蛋白质-配体亲和力预测和虚拟筛选方面均持续优于现有方法。  

本文其余部分组织如下。第2节 (https://arxiv.org/html/2606.14159#S2)回顾了预测PLA的深度学习方法,并讨论了Ollivier–Ricci曲率在图神经网络中的最新应用。第3节 (https://arxiv.org/html/2606.14159#S3)提出问题的形式化表述和Ollivier–Ricci曲率的计算,然后详细描述所提出的RicciBind模型。第4节 (https://arxiv.org/html/2606.14159#S4)报告全面的实验结果及其分析。第5节 (https://arxiv.org/html/2606.14159#S5)对研究进行总结和讨论。  

## 2 相关工作  

### 2.1 PLA预测中的深度学习方法  

预测蛋白质-配体结合亲和力的深度学习方法可分为两类:基于结构的方法和无结构的方法。无结构方法通过忽略3D结构和交互信息来简化蛋白质-配体复合物的表示。例如,DeepDTA[4 (https://arxiv.org/html/2606.14159#bib.bib4)]使用两个独立的1D-CNN直接从蛋白质和配体序列中提取特征。相比之下,Graph-CNN[8 (https://arxiv.org/html/2606.14159#bib.bib8)]和GraphDTA[5 (https://arxiv.org/html/2606.14159#bib.bib5)]利用2D分子图改善蛋白质和配体的特征表示。为增强蛋白质建模,DGraphDTA[32 (https://arxiv.org/html/2606.14159#bib.bib32)]和S-MAN[33 (https://arxiv.org/html/2606.14159#bib.bib33)]引入了蛋白质接触图和空间距离特征。然而,这些方法仍然忽略了分子在3D空间中的内在结构和真实相互作用机制,从而限制了它们实现稳健泛化和可解释性的能力。  

相比之下,基于结构的方法考虑了蛋白质与配体之间的3D分子结构和交互信息,旨在提高模型的泛化能力和可解释性。这些方法可进一步分为两类:基于3D-CNN的模型和基于3D-GNN的模型。在基于3D-CNN的模型中,ACNN[11 (https://arxiv.org/html/2606.14159#bib.bib11)]开发了一种通用的3D空间卷积操作,用于学习原子级化学相互作用。KDEEPK\_\{DEEP\}[12 (https://arxiv.org/html/2606.14159#bib.bib12)]将3D-CNN应用于体素化的蛋白质和配体表示,并丰富了八种药效团样特征。然而,由于体素化网格表示的稀疏性以及由此导致的3D-CNN计算效率低下,近年来的研究主要集中在基于3D-GNN的模型上。  

在原子层面,GIGN[6 (https://arxiv.org/html/2606.14159#bib.bib6)]和EHIGN[15 (https://arxiv.org/html/2606.14159#bib.bib15)]将蛋白质-配体复合物表示为异质图,同时捕获共价和非共价相互作用。分层方法,包括LEFTNet[18 (https://arxiv.org/html/2606.14159#bib.bib18)]、GET[19 (https://arxiv.org/html/2606.14159#bib.bib19)]和CheapNet[20 (https://arxiv.org/html/2606.14159#bib.bib20)],通过整合块级和原子级信息来构建多尺度表示。这些方法通过跨多个结构层次捕获蛋白质-配体关系,增强了交互建模的表达力。  

与现有的基于结构的方法不同,RicciBind采用分层表示范式,并显式引入分子结构的几何先验,以构建信息丰富且物理一致的表示。

相似文章

通过可微图划分对蛋白质语言模型表示的结构解释

arXiv cs.LG

本文提出了 SoftBlobGIN 框架,通过将蛋白质语言模型的表示投影到接触图上进行结构感知的消息传递,增强了其可解释性。该框架在酶分类和结合位点检测任务上展现出性能提升,同时提供了可审计的结构化解释。

结构蛋白质组学引导的共折叠模型

arXiv cs.LG

介绍了AIMS-Fold,一种推理时引导扩散框架,整合了交联质谱(XL-MS)和氢-氘交换(HDX-MS)数据,以改善针对诱导接近药物靶点的蛋白质共折叠预测。