PROTOCOL: 用于蛋白质同源搜索的后期交互检索

arXiv cs.LG 2026/05/29 04:00 论文

摘要

ProtoCol将后期交互检索应用于蛋白质同源搜索，将蛋白质表示为残基嵌入集，并使用MaxSim进行评分，在远程同源基准上优于池化方法和基于比对的方法。

arXiv:2605.29158v1 公告类型：新摘要：蛋白质同源搜索是功能注释、结构预测和进化分析的基础，但在“模糊区”中仍然具有挑战性，因为全局序列相似性较弱，经典比对方法会丧失灵敏度。蛋白质语言模型提供了上下文感知的表示，可能在此情形下提高比对灵敏度。然而，以往的基于蛋白质嵌入的检索流程通常将这些表示池化为单个向量，可能掩盖了揭示远程同源性的局部基序、结构域或保守残基。我们引入了ProtoCol，该模型将蛋白质表示为残基嵌入集，并采用ColBERT风格的后期交互来测试残基级比较是否能改善同源物检索。ProtoCol独立编码蛋白质，保持候选表示可预计算，并通过残基嵌入上的MaxSim对候选物进行评分。在SCOPe超家族和Pfam氏族基准上，ProtoCol优于序列组成、基于比对、池化PLM以及训练的单向量基线，支持后期交互作为远程同源搜索的有效检索层。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:18

# ProtoCol: 用于蛋白质同源搜索的后期交互检索
来源：https://arxiv.org/html/2605.29158
###### 摘要

蛋白质同源搜索是功能注释、结构预测和进化分析的基础，但在“模糊区”（twilight zone）内仍面临挑战：此时全局序列相似性微弱，经典比对方法灵敏度下降。蛋白质语言模型能提供上下文相关的表示，有望提升该区域的比对灵敏度。然而，现有的基于蛋白质嵌入的检索流程通常将这些表示池化为单个向量，从而可能掩盖显示远程同源关系的局部基序、结构域或保守残基。我们提出 ProtoCol，该模型将蛋白质表示为残基嵌入集合，并采用 ColBERT 风格的后期交互来检验残基级比较是否能改善同源检索。ProtoCol 独立编码蛋白质，使候选表示可预先计算，并利用残基嵌入上的 MaxSim 对候选进行评分。在 SCOPe 超家族和 Pfam 家族基准上，ProtoCol 优于基于序列组成、比对、池化 PLM 以及经训练的单向量基线，表明后期交互是远程同源搜索的一种有效检索层。

同源检索，蛋白质表征学习，后期交互

## 1 引言

同源蛋白质源自共同的祖先序列，通常保留相关的功能或结构。检测这类关系是计算生物学的核心任务，支持功能注释、结构预测和进化分析。对于远程同源物而言，这一任务尤为困难，因为它们的序列可能差异极大，以至于直接的序列级相似性变得微弱。在这个“模糊区”中，经典的序列比对方法可能会遗漏那些通过保守基序、结构域或结构约束仍然显现的关系（Altschul 等, 1990 (https://arxiv.org/html/2605.29158#bib.bib9); Eddy, 2011 (https://arxiv.org/html/2605.29158#bib.bib10); Steinegger 和 Söding, 2017 (https://arxiv.org/html/2605.29158#bib.bib11)）。

蛋白质语言模型（PLM）提供了一种有前景的仅依赖序列的方案，因为它们能产生编码结构和进化信号的上下文残基嵌入（Lin 等, 2023b (https://arxiv.org/html/2605.29158#bib.bib13); Liu 等, 2024 (https://arxiv.org/html/2605.29158#bib.bib23)）。然而，许多基于 PLM 的检索流程将这些嵌入池化为单个蛋白质向量，并通过余弦相似度比较蛋白质（Iovino 等, 2024 (https://arxiv.org/html/2605.29158#bib.bib22)）。这虽然高效，但可能会稀释局部证据，例如可能对远程同源决定至关重要的保守基序、结构域或少量结构受约束的残基。

这种池化瓶颈引出了我们的核心问题：*当蛋白质被表示为残基嵌入集合并通过后期交互进行比较时，同源检索是否会得到改善？* 我们假设，残基级评分既能保留局部进化证据，又能使数据库蛋白质能够独立编码。

我们通过 ProtoCol（“蛋白质”与“ColBERT”）（见图 A.1 (https://arxiv.org/html/2605.29158#A1.SS1)）来检验这一假设，这是一个用于蛋白质同源搜索的后期交互检索模型。ProtoCol 将 ColBERT 检索范式（Khattab 和 Zaharia, 2020 (https://arxiv.org/html/2605.29158#bib.bib15)）适配到蛋白质序列：它将每个蛋白质表示为残基级 PLM 嵌入，并通过轻量级的残基级交互来比较蛋白质¹。

我们在 SCOPe 超家族和 Pfam 家族检索基准上评估 ProtoCol，使用的基线旨在分离序列组成、比对灵敏度、PLM 规模、对比微调和后期交互的贡献。在这两种设置下，ProtoCol 均表现最佳，支持残基级后期交互作为远程同源搜索的有效检索层。

¹我们的代码可于 https://github.com/gabriellecohn/ProtoCol 获取。

## 2 相关工作

#### 基于比对的同源搜索。

经典的同源搜索依赖于残基级序列比较。BLAST（Altschul 等, 1990 (https://arxiv.org/html/2605.29158#bib.bib9)）进行快速的成对局部比对，而基于特征的方法如 PSI-BLAST 和 HMMER（Eddy, 2011 (https://arxiv.org/html/2605.29158#bib.bib10)）则利用多序列比对提高了灵敏度。MMseqs2（Steinegger 和 Söding, 2017 (https://arxiv.org/html/2605.29158#bib.bib11)）进一步改进了大规模搜索的速度-灵敏度权衡。这些方法仍然是强大的基线，但它们对可检测序列相似性的依赖限制了对于高度分化同源物的灵敏度。

基于结构的搜索通过将蛋白质更接近其保守的三维形式进行比较，解决了其中一些局限性。例如，Foldseek（van Kempen 等, 2024 (https://arxiv.org/html/2605.29158#bib.bib12)）将蛋白质结构离散化为残基级字母表，并对生成的字符串进行比对。这类方法展示了超越原始序列同一性的局部匹配的价值，但需要结构信息才能工作。我们的工作则探讨仅基于序列的 PLM 表示是否能够支持类似的检索原语。

用于检索的蛋白质语言模型。大型蛋白质语言模型如 ProtTrans（Elnaggar 等, 2021 (https://arxiv.org/html/2605.29158#bib.bib14)）和 ESM（Lin 等, 2023b (https://arxiv.org/html/2605.29158#bib.bib13)）从未比对序列数据库中学习上下文残基嵌入。这些嵌入已通过平均池化为单个蛋白质级向量，并按余弦相似度对候选进行排名用于检索（Schütze 等, 2022 (https://arxiv.org/html/2605.29158#bib.bib21); Iovino 等, 2024 (https://arxiv.org/html/2605.29158#bib.bib22)）。这种双编码器式设置支持高效的最近邻搜索，类似于 NLP 中的密集检索方法如 Sentence-BERT（Reimers 和 Gurevych, 2019 (https://arxiv.org/html/2605.29158#bib.bib17)）和 Dense Passage Retrieval（Karpukhin 等, 2020 (https://arxiv.org/html/2605.29158#bib.bib16)），但丢弃了 PLM 嵌入的词元级结构。诸如 PLMAlign 和 pLM-BLAST（Liu 等, 2024 (https://arxiv.org/html/2605.29158#bib.bib23); Kaminski 等, 2023 (https://arxiv.org/html/2605.29158#bib.bib20)）等方法通过使用 PLM 表示进行面向比对的比较，指出了残基级 PLM 嵌入在远程同源检测中的效用。

后期交互检索。后期交互模型在高效的全局向量检索和昂贵的成对交互模型之间占据了一个中间地带。ColBERT（Khattab 和 Zaharia, 2020 (https://arxiv.org/html/2605.29158#bib.bib15)）将每个文本段落表示为词元嵌入，并通过 MaxSim 将每个查询词元与其最相似的文档词元进行匹配，从而对查询-文档对进行评分。这保留了细粒度的匹配，同时允许文档表示被预先计算。在 ColBERT 提出之后，许多工作进一步发展了后期交互检索的概念（Santhanam 等, 2022b (https://arxiv.org/html/2605.29158#bib.bib26), a (https://arxiv.org/html/2605.29158#bib.bib30); Formal 等, 2024 (https://arxiv.org/html/2605.29158#bib.bib31); Faysse 等, 2025 (https://arxiv.org/html/2605.29158#bib.bib27); Lee 等, 2023 (https://arxiv.org/html/2605.29158#bib.bib29); Lin 等, 2023a (https://arxiv.org/html/2605.29158#bib.bib28); Chaffin 和 Sourty, 2025 (https://arxiv.org/html/2605.29158#bib.bib32); Dhulipala 等, 2024 (https://arxiv.org/html/2605.29158#bib.bib33); Engels 等, 2023 (https://arxiv.org/html/2605.29158#bib.bib34)）。所有这些先前工作都集中在传统的信息检索设置上。ProtoCol 将此想法适配到蛋白质：残基替代词元，候选蛋白质替代文档，MaxSim 为同源检索提供残基级相似度分数。与面向比对的 PLM 方法不同，ProtoCol 将后期交互用作一个学习的检索机制，而非计算显式的比对路径。

## 3 方法

本节定义 ProtoCol 的组成部分：一个残基级 PLM 编码器、MaxSim 评分以及一个基于弱同源标签的对比目标。这些选择共同检验同源检索是否能从保留通过评分层的残基嵌入中受益，而不是在比较前压缩每个蛋白质。数据集构建、基线和评估协议在第 4 节中描述。

后期交互编码器。我们在蛋白质语言模型上实例化 ColBERT 风格的后期交互。设 \(x = (x_1, \dots, x_T)\) 为一个蛋白质序列，并设 \(h_t \in \mathbb{R}^H\) 表示由 ESM-2 主干 \(f_\theta\)（Lin 等, 2023b (https://arxiv.org/html/2605.29158#bib.bib13)）在位置 \(t\) 产生的上下文残基嵌入。我们附加一个线性投影 \(W \in \mathbb{R}^{D \times H}\) 后接 L2 归一化：

\[
e_t = \frac{W h_t}{\lVert W h_t \rVert_2} \in \mathbb{R}^D,
\quad (1)
\]

所有实验中 \(D = 128\)。除非另有说明，主干为 ESM-2 35M（\(H = 480\)，12 层）。为保持可训练参数规模较小，我们冻结嵌入层和较低的 Transformer 块，仅微调最后三个 Transformer 层、堆栈后的 LayerNorm 以及 \(W\)。这产生了约 8.4M 个可训练参数（总参数 33.6M）。

MaxSim 评分。一个蛋白质由其变长集合的 L2 归一化残基嵌入 \(E = \{e_1, \dots, e_T\}\) 表示。MaxSim 通过允许每个查询残基在候选蛋白质中的任何位置贡献其最强匹配，实现了残基级检索。给定查询嵌入 \(E^q\) 和候选嵌入 \(E^d\)，我们使用 Khattab 和 Zaharia (2020 (https://arxiv.org/html/2605.29158#bib.bib15)) 的非对称 MaxSim 算子对这对进行评分，

\[
\mathrm{MaxSim}(E^q, E^d) = \sum_{i=1}^{T_q} \max_{j \in [T_d]} \langle e_i^q, e_j^d \rangle.
\quad (2)
\]

由于嵌入已 L2 归一化，每个内积即为余弦相似度。填充位置在内部最大值和外部求和中均被屏蔽。

对比训练。训练塑造嵌入空间，使得同源物获得高的后期交互分数，而批次内的非同源物获得较低的分数。每个训练对由一个锚点蛋白质 \(a\) 和一个正例蛋白质 \(p\) 组成，对于 SCOPe（Chandonia 等, 2022 (https://arxiv.org/html/2605.29158#bib.bib18)）采样自同一超家族，对于 Pfam（Mistry 等, 2021 (https://arxiv.org/html/2605.29158#bib.bib19)）采样自同一家族。对于一个包含 \(B\) 个对的批次，我们形成 \(S \in \mathbb{R}^{B \times B}\)，其中 \(S_{ij} = \mathrm{MaxSim}(E^{a_i}, E^{p_j})\)，将非对角项视为批次内负例，并最小化对称的 InfoNCE 目标

\[
\mathcal{L} = \frac{1}{2} \left[ \mathrm{CE}(S/\tau, y) + \mathrm{CE}(S^\top/\tau, y) \right],
\quad (3)
\]

其中 \(y_i = i\)，\(\tau\) 为温度。我们不筛选批次内负例中意外的正例碰撞。

#### 实现细节。

序列使用 ESM-2 分词器进行分词，并截断至 \(T \leq 256\) 个残基。我们使用 AdamW 优化器，权重衰减 0.01，训练三个周期，批次大小 16。学习率遵循 OneCycleLR 计划，峰值学习率 \(2 \times 10^{-5}\)，预热 10%。训练使用单 GPU 上的 fp16 自动混合精度；梯度在每一步前被反缩放并裁剪至全局范数 1.0。我们全程设置 \(\tau = 1\)。

## 4 实验

### 4.1 数据集与检索协议

我们在两个互补的设置中评估同源检索。SCOPe 提供蛋白质结构域的层次化结构分类；我们使用超家族标签作为潜在远程同源物之间共同祖先的证据（Chandonia 等, 2022 (https://arxiv.org/html/2605.29158#bib.bib18)）。Pfam 使用序列比对和特征 HMM 将蛋白质序列分组为家族；我们使用家族标签（将相关家族分组）作为远程同源检索的更广泛测试。

对于每个数据集，我们构建基于进化组的训练集和测试集，并在该数据集的训练集上训练一个单独的 ProtoCol 模型。在评估时，每个蛋白质被用作查询，针对对应测试数据库中剩余的蛋白质进行检索，排除自匹配。如果检索到的蛋白质与查询蛋白质共享保留的进化组（SCOPe 的超家族或 Pfam 的家族），则视为相关。基于组的无交集训练/测试分割确保评估衡量的是对未见同源组的泛化能力，而非对训练标签的记忆。

### 4.2 比较方法

我们与旨在区分后期交互评分贡献与其他检索信号来源的基线进行比较：序列组成、比对灵敏度、PLM 规模、对比微调以及未经任务特定适配的预训练残基相似性。经过训练的 ProtoCol 模型在第 3 节中描述。

MinHash Jaccard。我们计算氨基酸 5 聚体上的 MinHash 近似 Jaccard 相似度。每个序列被分解为重叠的 5 聚体，使用 `datasketch` 计算具有 256 个排列的 MinHash 签名。候选根据签名之间匹配哈希值的比例进行排序。

MMseqs2。我们将 MMseqs2（Steinegger 和 Söding, 2017 (https://arxiv.org/html/2605.29158#bib.bib11)）评估为一种强大的基于比对的序列检索基线。所有测试序列使用 `mmseqs easy-search` 以灵敏度 7.5 搜索整个测试集。命中按 e-value 升序排列。

均值池化 ESM-2 650M。为了评估编码器规模的重要性，我们使用冻结的 ESM-2 650M（`facebook/esm2_t33_650M_UR50D`）嵌入每个蛋白质，该模型远大于 ProtoCol 使用的 ESM-2 35M 主干。最后一层的残基嵌入被均值池化、L2 归一化，并按余弦相似度排序。

单向量 ESM-2 35M。这是对后期交互的直接消融。它使用与 ProtoCol 相同的 ESM-2 35M 主干和对比目标，但将残基嵌入均值池化为一个 L2 归一化的蛋白质向量，并通过余弦相似度进行检索。这测试了性能提升是来自残基级评分还是仅仅来自微调。

冻结 ProtoCol。为了隔离任务特定优化，我们评估一个冻结的 ProtoCol 变体，其使用与训练模型相同的 ESM-2 35M 主干、128 维投影和 MaxSim 评分函数，但所有参数保持初始值。

### 4.3 评估指标

我们使用截断的 recall@k 指标评估检索，

\[
\mathrm{cRecall@}k(q) = \frac{\mathrm{hits@}k(q)}{\min(k, N_q)},
\quad (4)
\]

其中 \(\mathrm{hits@}k(q)\) 是前 \(k\) 个检索结果中与 \(q\) 为真实同源物的蛋白质数量，\(N_q\) 是该组中其他蛋白质的数量。与标准 recall@k 不同，截断 recall@k 通过可出现在前 \(k\) 中的最大相关蛋白质数量进行归一化，因此如果排名的前 \(k\) 项全部相关，则得分为 1，与组大小无关（Ji 等, 2025 (https://arxiv.org/html/2605.29158#bib.bib24); Chen 等, 2023 (https://arxiv.org/html/2605.29158#bib.bib25)）。我们通过将测试集中的每个蛋白质作为查询，并从剩余蛋白质中检索来计算截断 recall。

PROTOCOL: 用于蛋白质同源搜索的后期交互检索

相似文章

ProtSent：蛋白质句子转换器

结构蛋白质组学引导的共折叠模型

深度学习在蛋白质复合物预测与设计中的应用

大规模数据集与基准：蛋白质-配体模型学习的是结合位点还是仅仅结合可能性？

先探后编：基于探针引导的LLM代理在基于结构的药物设计中的分子优化

提交意见反馈