大规模数据集与基准:蛋白质-配体模型学习的是结合位点还是仅仅结合可能性?

arXiv cs.LG 论文

摘要

介绍了InteractBind,一个用于细粒度评估蛋白质-配体模型的大规模数据集和基准,重点关注结合位点定位和非共价相互作用预测。评估了八个现有模型,发现尽管二元结合预测表现强劲,但结合位点定位能力有限。

arXiv:2605.24045v1 公告类型:新 摘要:蛋白质-配体建模是计算药物发现和分子设计的基础。现有的蛋白质-配体基准通常通过二元结合预测和亲和力回归等任务,评估蛋白质与配体是否相互作用以及结合强度。然而,这些评估对模型能否定位结合位点或识别分子识别背后的非共价相互作用提供的证据有限。为弥补这一空白,我们提出了InteractBind,这是一个包含约10万个蛋白质-配体对的大规模数据集,并附带一个用于细粒度评估的基准。核心细粒度任务是结合位点定位,该任务使用覆盖六种主要非共价相互作用类型的蛋白质残基和配体原子相互作用图谱,来评估模型生成的相互作用图谱是否定位了结合位点。InteractBind还包含结合亲和力和蛋白质相似性控制的数据划分,以支持现实的泛化评估。我们利用InteractBind评估了八个现有的基于序列和考虑相互作用的模型,评估了二元结合预测和结合位点定位能力。结果显示,尽管二元结合预测表现强劲,但结合位点定位有限,且在不同非共价相互作用类型间存在显著差异。总体而言,InteractBind建立了一个基准范式,鼓励开发更具可解释性和物理基础的蛋白质-配体模型。
查看原文
查看缓存全文

缓存时间: 2026/05/26 08:59

# 蛋白质-配体模型学习的是结合位点还是仅仅学习结合倾向? 来源:https://arxiv.org/html/2605.24045 ## 大规模数据集与基准:蛋白质-配体模型学习的是结合位点还是仅仅学习结合倾向? 孟昭涵¹,白珍²,\*\*白珍\*\*\textsuperscript{2},袁可³,⁴,Iadh Ounis¹,孟再乔¹,⁵,徐浩⁶,Joseph Loscalzo⁶,⁷  
¹格拉斯哥大学计算科学学院,³癌症科学学院  
²东京科学大学生命科学与技术学院  
⁴英国癌症研究中心苏格兰研究所  
⁵剑桥大学语言技术实验室  
⁶哈佛医学院布莱根妇女医院医学部  
⁷麻省理工学院与哈佛大学布罗德研究所  
![[无标题图片]](https://arxiv.org/html/2605.24045v1/hf-logo.png)https://huggingface.co/datasets/Zhaohan-Meng/InteractBind  
z\.meng\.3@research\.gla\.ac\.uk;haxu@bwh\.harvard\.edu  

###### 摘要  
蛋白质-配体建模是计算药物发现和分子设计的基础。现有的蛋白质-配体基准通常通过二分类结合预测和亲和力回归等任务,评估蛋白质和配体是否相互作用以及结合强度。然而,这些评估对于模型是否能够定位结合位点或识别分子识别背后的非共价相互作用,提供的证据有限。为弥补这一空白,我们提出了InteractBind,一个包含约10万对蛋白质-配体的大规模数据集,并配有一个细粒度评估基准。核心细粒度任务是结合位点定位,该任务利用涵盖六种主要非共价相互作用类型的蛋白质残基-配体原子相互作用图,评估模型导出的相互作用图是否能定位结合位点。InteractBind还包含结合亲和力和蛋白质相似性控制的数据划分,以支持真实的泛化评估。利用InteractBind,我们评估了八个现有的序列基模型和交互感知模型,评估了二分类结合预测和结合位点定位。结果表明,尽管二分类结合预测表现强劲,但结合位点定位能力有限,且不同非共价相互作用类型间存在显著差异。总体而言,InteractBind建立了一个基准范式,鼓励开发更具可解释性和物理基础的蛋白质-配体模型。

## 1 引言  
蛋白质-配体相互作用是众多生物和化学过程的基础,包括酶催化、分子识别、细胞信号转导和治疗调控[4 (https://arxiv.org/html/2605.24045#bib.bib46),45 (https://arxiv.org/html/2605.24045#bib.bib17),41 (https://arxiv.org/html/2605.24045#bib.bib49)]。大规模实验表征这些相互作用的成本高、耗时长,这使得蛋白质-配体建模成为计算药物发现的核心组成部分:虚拟筛选从大型化合物库中优先筛选候选结合剂,而结合亲和力预测则在湿实验验证前支持先导化合物优化[16 (https://arxiv.org/html/2605.24045#bib.bib44),13 (https://arxiv.org/html/2605.24045#bib.bib104),50 (https://arxiv.org/html/2605.24045#bib.bib136)]。代表性进展包括基于结构的方法(如对接、分子动力学和几何深度学习)[2 (https://arxiv.org/html/2605.24045#bib.bib11),32 (https://arxiv.org/html/2605.24045#bib.bib18),31 (https://arxiv.org/html/2605.24045#bib.bib16)],它们对三维结合几何进行建模;以及基于序列的方法(如从蛋白质序列和配体字符串或图表示预测结合)[11 (https://arxiv.org/html/2605.24045#bib.bib41),53 (https://arxiv.org/html/2605.24045#bib.bib15),23 (https://arxiv.org/html/2605.24045#bib.bib2)]。为评估这些方法,现有蛋白质-配体建模基准主要集中在二分类结合预测[18 (https://arxiv.org/html/2605.24045#bib.bib106),55 (https://arxiv.org/html/2605.24045#bib.bib109)]和结合亲和力预测[27 (https://arxiv.org/html/2605.24045#bib.bib111),14 (https://arxiv.org/html/2605.24045#bib.bib24)]任务上。这些任务衡量模型是否能预测结合发生或结合强度,而非识别解释分子识别的具体结合位点[29 (https://arxiv.org/html/2605.24045#bib.bib28),8 (https://arxiv.org/html/2605.24045#bib.bib27)]。因此,现有模型捕捉此类细粒度交互模式的证据往往来自少数可视化案例研究,这促使我们建立一个新的基准,以大规模的真实标注数据系统性地评估这些能力。

除了二分类结合预测和结合亲和力预测,蛋白质-配体模型的细粒度评估还应测试模型是否能定位构成分子识别基础的结合位点。在实验解析的蛋白质-配体复合物结构中,结合是通过配体原子与蛋白质残基之间的非共价接触介导的(附录A (https://arxiv.org/html/2605.24045#A1))[16 (https://arxiv.org/html/2605.24045#bib.bib44),36 (https://arxiv.org/html/2605.24045#bib.bib48)]。这些接触自然地定义了结合位点:如果一个残基参与一个或多个稳定配体的接触,则该残基被视为结合位点残基[29 (https://arxiv.org/html/2605.24045#bib.bib28),6 (https://arxiv.org/html/2605.24045#bib.bib86)]。因此,结合位点定位评估模型导出的相互作用图是否能识别配体结合的位置。然而,仅评估整体结合位点图无法揭示哪些物理化学接触模式被捕获,因为结合位点残基来自于具有不同几何和化学约束的相互作用类型。保留相互作用类型标注还能进一步评估模型是否能识别稳定残基-原子接触的非共价相互作用。此类信息支持可靶向残基识别、选择性分析和结构信息引导的先导化合物优化[12 (https://arxiv.org/html/2605.24045#bib.bib150),21 (https://arxiv.org/html/2605.24045#bib.bib22)]。现有的基于序列的蛋白质-配体结合基准很少提供大规模的结合位点和相互作用类型特定标注,限制了系统性评估模型是否能定位结合位点并识别配体识别背后的非共价相互作用模式。

为应对这一局限性,我们提出了InteractBind,一个源自蛋白质数据银行(PDB)[5 (https://arxiv.org/html/2605.24045#bib.bib116)]的新大规模蛋白质-配体数据集,并建立了相应的InteractBind基准用于蛋白质-配体建模的细粒度评估。该数据集包含约10万对蛋白质-配体,涵盖约1.1万个蛋白质和9000个配体。现有基准通常只提供二分类标签或亲和力分数:例如,BioSNAP[55 (https://arxiv.org/html/2605.24045#bib.bib109)]提供二分类结合标签,而KIBA[46 (https://arxiv.org/html/2605.24045#bib.bib30)]提供标量结合亲和力值。相比之下,如图1 (https://arxiv.org/html/2605.24045#S1.F1)所示,InteractBind还提供了六种主要非共价相互作用的序列级相互作用图,以及一个定义蛋白质结合位点的总体相互作用图。新基准以结合位点定位为核心细粒度评估任务,评估模型导出的相互作用图是否能定位参与配体结合的蛋白质残基。相互作用类型特定图进一步支持评估模型是否能识别稳定残基-原子接触的非共价相互作用。为提高基准的真实性和泛化评估能力,InteractBind提供了两种数据集划分:亲和力感知的分布内(ID)划分,以及蛋白质相似性控制的分布外(OOD)划分,用于评估对不太熟悉的蛋白质靶标的泛化能力。在ID划分中,我们对八个现有代表性的交互感知模型进行了二分类结合预测、结合位点定位和相互作用类型特定评估。表现最佳的模型在二分类结合预测上达到了98.3%的AUROC,但在结合位点定位上仅达到21.6%的BRHR@1(BRHR@1衡量排名第一的预测残基是否匹配真实结合位点残基)。相互作用类型特定评估进一步揭示了不同非共价相互作用类别间的不均衡表现,表明准确的结合预测并不意味着能可靠地识别稳定结合的物理化学接触。对于OOD评估,我们使用全局序列比对[20 (https://arxiv.org/html/2605.24045#bib.bib6)]构建了四个蛋白质相似性控制的数据集划分,最大训练-测试蛋白质相似度分别为25%、28%、31%和33%;我们观察到在这些划分下性能下降,突显了对于不太熟悉的蛋白质靶标定位结合位点的难度。据我们所知,此前没有任何基于序列的基准提供明确的残基级交互监督,以及源自非共价接触的结合位点定位的系统性评估。

我们的贡献总结如下:
- ❶ 我们提出了InteractBind,一个新的包含约10万对蛋白质-配体的大规模数据集,提供二分类标签、亲和力值、结合位点标注和非共价相互作用图。
- ❷ 我们定义了结合位点定位作为核心细粒度评估任务,并辅以残基级定位和相互作用类型特定接触分析的指标,同时构建了ID和OOD划分以支持真实泛化评估。
- ❸ 我们对八个代表性的蛋白质-配体模型进行了基准测试,表明交互感知架构提供了可衡量的结合位点定位信号,同时指出了在定位和非共价相互作用识别方面仍有很大的改进空间。

![参见图注](https://arxiv.org/html/2605.24045v1/x1.png)  
图1:InteractBind概述。A. InteractBind通过从实验解析的蛋白质-配体复合物中提取相互作用谱、序列级相互作用图和蛋白质结合位点标注构建而成。B. 每个样本包含蛋白质和配体序列表示、二分类结合标签、结合亲和力值、结合位点标注以及六种非共价相互作用的加权相互作用图及一个总体相互作用图。C. 给定蛋白质和配体序列表示,模型导出的相互作用图与真实的蛋白质结合位点标注进行评估。

### 1.1 蛋白质-配体建模  
蛋白质-配体建模已经从基于结构和基于序列两个角度进行了研究。基于结构的方法[2 (https://arxiv.org/html/2605.24045#bib.bib11),32 (https://arxiv.org/html/2605.24045#bib.bib18),31 (https://arxiv.org/html/2605.24045#bib.bib16)]从三维结构建模结合,包括分子动力学、几何深度学习以及最近的生物分子结构预测模型如AF3[1 (https://arxiv.org/html/2605.24045#bib.bib133)]和Boltz-1[50 (https://arxiv.org/html/2605.24045#bib.bib136)]。然而,这些方法依赖于高质量结构或可靠的预测构象,几何精度并不能保证化学上可信的非共价相互作用[1 (https://arxiv.org/html/2605.24045#bib.bib133),28 (https://arxiv.org/html/2605.24045#bib.bib12)]。基于序列的模型在复合物结构不可用时提供了一种可扩展的替代方案,从蛋白质序列和配体字符串或图表示预测结合[22 (https://arxiv.org/html/2605.24045#bib.bib101),10 (https://arxiv.org/html/2605.24045#bib.bib110)]。最近的交互感知模型进一步使用注意力或融合模块对残基-原子对应关系进行建模,定性的案例研究表明学习到的相互作用图可以突出显示可能的结合位点残基[35 (https://arxiv.org/html/2605.24045#bib.bib94),52 (https://arxiv.org/html/2605.24045#bib.bib71),30 (https://arxiv.org/html/2605.24045#bib.bib53),3 (https://arxiv.org/html/2605.24045#bib.bib102)]。然而,由于现有数据集很少提供残基-原子相互作用标注,目前仍难以确定这些图是否系统性地定位了物理上有意义的结合位点,或者仅仅与二分类结合预测相关。我们的新InteractBind基准正是基于这一差距,提供了相互作用标注,用于评估基于序列的模型是否能定位结合残基和相互作用模式。

### 1.2 蛋白质-配体数据集  
蛋白质-配体数据集根据其提供的信息级别服务于不同目的。结构资源如PDB和AlphaFoldDB提供实验解析或预测的蛋白质结构,支持结构分析、结合构象建模和基于结构的假设生成[5 (https://arxiv.org/html/2605.24045#bib.bib116),49 (https://arxiv.org/html/2605.24045#bib.bib123)]。对接导向数据集如DUD-E广泛用于评估虚拟筛选方法,为目标蛋白提供活性化合物和性质匹配的诱饵[34 (https://arxiv.org/html/2605.24045#bib.bib23)]。配对级学习数据集支持互补的预测任务:BindingDB、BioSNAP和Human常用于二分类药物-靶标相互作用预测[18 (https://arxiv.org/html/2605.24045#bib.bib106),55 (https://arxiv.org/html/2605.24045#bib.bib109),27 (https://arxiv.org/html/2605.24045#bib.bib111),10 (https://arxiv.org/html/2605.24045#bib.bib110)],而Davis和KIBA广泛用于结合亲和力预测[14 (https://arxiv.org/html/2605.24045#bib.bib24),46 (https://arxiv.org/html/2605.24045#bib.bib30)]。这些资源共同推动了基于结构的分析、虚拟筛选、相互作用预测和亲和力估计的进展。然而,它们通常不提供大规模的残基-原子标注,以指定哪些蛋白质残基接触配体以及哪些非共价相互作用稳定这些接触。InteractBind通过从实验解析的蛋白质-配体复合物中提取非共价相互作用,并将其转换为序列级残基-原子标注和聚合的结合位点图,填补了这一空白,使得结合位点定位的系统性训练和评估超越了配对级标签。

### 1.3 蛋白质-配体评估指标  
蛋白质-配体建模的评估指标通常遵循现有数据集提供的监督级别。对于二分类相互作用预测,常用的标准分类指标包括AUROC、AUPRC、准确率、精确率、召回率和F1分数,用于评估模型是否能区分相互作用的与非相互作用的蛋白质-配体对[22 (https://arxiv.org/html/2605.24045#bib.bib101),10 (https://arxiv.org/html/2605.24045#bib.bib110),3 (https://arxiv.org/html/2605.24045#bib.bib102)]。对于结合亲和力预测,回归和排序指标如均方误差、均方根误差、皮尔逊相关系数、斯皮尔曼相关系数和一致性指数用于衡量预测与实验亲和力值之间的一致性[14 (https://arxiv.org/html/2605.24045#bib.bib24),46 (https://arxiv.org/html/2605.24045#bib.bib30),27 (https://arxiv.org/html/2605.24045#bib.bib111)]。基于结构的评估通常依赖于几何标准,如配体RMSD和

相似文章

结构蛋白质组学引导的共折叠模型

arXiv cs.LG

介绍了AIMS-Fold,一种推理时引导扩散框架,整合了交联质谱(XL-MS)和氢-氘交换(HDX-MS)数据,以改善针对诱导接近药物靶点的蛋白质共折叠预测。

模型能建模,但不能绑定:文本到优化中的结构化接地

arXiv cs.LG

本文介绍了Text2Opt-Bench,一个可扩展的文本到优化基准,并发现大语言模型在“绑定”(问题数据接地)方面存在困难,而非“建模”(选择优化结构)。作者提出了BIND,一种简单的推理时方法,将数值数据外部化,显著提高了各模型的准确率。