ProtSent：蛋白质句子转换器

arXiv cs.LG 2026/05/11 04:00 论文

protein-ai bioinformatics contrastive-learning sentence-transformers embeddings research

摘要

本文介绍了 ProtSent，这是一个用于蛋白质语言模型的对比微调框架，能够提升嵌入质量，从而优化远程同源性检测和结构检索等下游任务。

arXiv:2605.06830v1 公告类型：新论文摘要：蛋白质语言模型（pLMs）能够生成捕捉进化信息和结构信息的残基级表示，然而其均值池化序列嵌入并未显式地针对反映蛋白质间的功能、进化或结构相似性进行训练。我们提出了蛋白质句子转换器（ProtSent），这是一个将蛋白质语言模型适配为通用嵌入模型的对比微调框架。ProtSent 在五个蛋白质对数据集上使用 MultipleNegativesRankingLoss 进行训练，这些数据集包括：Pfam 家族、基于结构的难负样本、AlphaFold DB 结构对、StringDB 蛋白质-蛋白质相互作用数据以及深度突变扫描（Deep Mutational Scanning）数据。我们使用固定嵌入和 k 近邻（k-NN）探针在 23 个下游任务上评估嵌入邻域质量。在 ESM-2 150M 模型上，ProtSent 提升了 23 个任务中的 15 个，其中远程同源性检测提升 105%，变体效应预测提升 17%，SCOPe-40 结构检索的 Recall@1 提升 19.9%。35M 版本模型在 23 个任务中提升了 16 个，远程同源性检测提升 40.5%，SCOPe-40 结构检索的 Recall@1 提升 15.5%。对比微调重构了嵌入空间，使其能更好地捕捉蛋白质功能和结构，且无需任何特定任务的监督。我们发布了模型、公开数据以及训练配方和代码。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:54

# ProtSent：蛋白质句子变换器

来源：https://arxiv.org/html/2605.06830

Dan Ofer  
耶路撒冷希伯来大学生物化学系  

Oriel Perets$^{1}$  
本-古里安内盖夫大学计算机与信息科学系  

Michal Linial  
耶路撒冷希伯来大学生物化学系  

Nadav Rappoport  
本-古里安内盖夫大学计算机与信息科学系  

###### 摘要

蛋白质语言模型（pLMs）生成残基级别的表示，能够捕捉进化和结构信息，但其平均池化的序列嵌入并未显式训练以反映蛋白质之间的功能、进化或结构相似性。我们提出了蛋白质句子变换器（ProtSent），这是一种对比微调框架，用于将蛋白质语言模型适配为通用嵌入模型。ProtSent 使用 MultipleNegativesRankingLoss（多负例排名损失）在五个蛋白质对数据集上进行训练：Pfam 家族、结构衍生的难负例、AlphaFold DB 结构对、StringDB 蛋白质-蛋白质相互作用以及深度突变扫描（DMS）数据。我们使用冻结的嵌入和 $k$ 近邻（$k$-nearest-neighbor）探针在 23 个下游任务上进行评估，以测量嵌入邻域的质量。在 ESM-2 150M 模型上，ProtSent 在 23 个任务中的 15 个取得了提升，其中远缘同源检测提升了 +105%，变异效应预测提升了 +17%，SCOPe-40 结构检索的 Recall@1 提升了 +19.9%。35M 参数规模的模型在 23 个任务中的 16 个取得了提升，远缘同源检测提升 +40.5%，SCOPe-40 的 Recall@1 提升 +15.5%。对比微调重构了嵌入空间，使其能更好地捕捉蛋白质的功能和结构，且无需任何特定任务的监督。我们发布了模型、公共数据、训练配方和代码。

## 1 引言

在自然语言处理中，BERT 类模型的类似局限性通过 Sentence-BERT (Reimers and Gurevych, 2019) 得到解决，后者应用对比学习来重构嵌入空间，使语义相似的句子成为邻居。对比目标优化了下游任务所依赖的指标：嵌入距离。我们将这一原理应用于蛋白质语言模型。我们的框架蛋白质句子 BERT（ProtSent）使用 MultipleNegativesRankingLoss (MNRL) (Henderson et al., 2017) 对蛋白质语言模型主干进行端到端微调，跨多个数据集进行训练，每个数据集捕捉生物相关性的不同维度。我们结合了五个数据源：(i) Pfam 家族成员资格，(ii) 结构衍生的难负例，(iii) AlphaFold DB 结构对，(iv) StringDB 相互作用对，以及 (v) 深度突变扫描 (DMS) 数据，并使用 CoSENT 损失 (Su, 2022) 来捕捉连续的适应性景观。

我们在 23 个下游任务套件上评估 ProtSent，采用故意简单的协议：嵌入被冻结，并使用 $k$ 近邻 ($KNN$) 探针进行评估。这种评估策略测量嵌入空间几何的质量，而不是其上方学习分类器的容量。其基本原理是，如果对比训练成功重构了邻域结构，那么完全依赖邻居身份的探针应该是改进的最敏感检测器。

我们的贡献如下：

*   我们引入了 ProtSent，这是一种针对蛋白质语言模型的对比微调框架，结合了五个蛋白质对数据集和轮流采样策略。
*   我们证明对比微调在依赖嵌入邻域质量的任务上产生了显著增益，包括远缘同源检测提升 +105% 和 SCOPe-40 结构检索 Recall@1 提升 +19.9%（基于 ESM-2 150M），在 35M 规模下也有类似的增益（分别为 +40.5% 和 +15.5%）。
*   我们展示这些改进在两个模型规模（35M 和 150M 参数）以及涵盖功能、结构、工程和突变的多种生物任务中是一致的。
*   我们提供了消融研究，隔离了每个训练数据源和采样策略对最终性能的贡献。

## 2 相关工作

#### 蛋白质语言模型

自监督蛋白质语言模型从大型序列数据库中学习残基级别的表示。ESM-1b 和 ESM-2 (Rives et al., 2021; Lin et al., 2023) 在数百万个 UniRef 序列上使用掩码语言建模训练 Transformer 编码器，生成的嵌入编码了进化保守性、二级结构和接触信息。ESMFold (Lin et al., 2023) 将这种方法扩展到原子分辨率的结构预测。ProtTrans (Elnaggar et al., 2022) 在十亿参数规模下探索了多种架构（BERT, Albert, T5），并表明残基级别表示能很好地迁移到二级结构和定位任务中。TAPE (Rao et al., 2019) 引入了标准化的基准套件，并证明预训练表示在五个蛋白质任务上优于手工特征。一个共同的主题是，下游迁移通常由一个学习到的探针中介，即在线性层或小 MLP 上针对特定任务标签进行训练。相比之下，ProtSent 针对序列级别的嵌入空间，探讨对比微调是否可以重构它，使得仅通过最近邻查找就足以完成多个下游任务。

#### 语言模型的对比微调

在 NLP 中，Sentence-BERT (Reimers and Gurevych, 2019) 表明，在自然语言推理对上以孪生目标微调 BERT，可以生成句子嵌入，其余弦相似度与语义相似度相关，将句子比较的计算成本从二次型的交叉编码器推理降低为单次嵌入查找。后续工作将其扩展到多语言 and 特定领域设置 (Reimers and Gurevych, 2020)。对于蛋白质，Heinzinger et al. (2022) 提出了 ProtTucker，它在 CATH 超家族标签（S30 子集，3,186 个训练蛋白）上使用三元组损失微调 ProtT5，并展示了改进的远缘同源检测。独立地，Redl et al. (2023) 将 SentenceTransformers 框架适配到 ProtBERT，并表明在无规性和稳定性注释上的对比训练提高了那些特定任务的性能。我们的工作在与规模和广度上有所不同：ProtSent 在来自五个异构数据源（Pfam 家族、结构对、相互作用网络、难负例和 DMS）的超过 7000 万蛋白质对上进行训练，并在涵盖分类、回归和检索的 23 个任务上进行评估，而不是单一维度的相似性。我们的目标是提供一个用于通用用途的基础模型。

#### 基于嵌入的蛋白质搜索和检索

传统的序列搜索工具如 BLAST 和 HMMer 依赖于局部对齐启发式和轮廓隐马尔可夫模型 (Söding, 2005; Steinegger and Söding, 2017)。最近的工作探索了学习嵌入作为一种替代方案。PLMSearch (Liu et al., 2024) 结合 ESM-1b 嵌入和轻量级交叉注意力模块来重新排序同源搜索结果，在对远缘同源物的检测上实现了比 HMMer 更高的灵敏度。Hong et al. (2024) 引入了密集同源检索 (DHR) 系统，该系统在 SCOPe 域上使用对比学习训练双编码器，并报告在 1% 假阳性率下达到 93% 的灵敏度。Foldseek (van Kempen et al., 2024) 采取了不同的方法，将 3D 骨架几何编码为结构字母表，并在不进行完整对齐的情况下执行快速结构搜索。这些系统是端到端优化用于检索的；而 ProtSent 则针对通用嵌入，这些嵌入能迁移到不同的任务中，其中检索（SCOPe-40）作为众多评估维度之一。

#### 蛋白质功能预测

从序列预测酶类、适应性效应或其他功能特性仍然是一个核心挑战。GOBeacon (Lin et al., 2025) 最近提出了一种集成框架，将对比正则化应用于多标签 GO 分类器，报告在 CAFA 风格基准 (Jiang et al., 2016) 上有所改进。无监督和无异常检测方法并不一定优于监督方法 (Michael-Pitschaze et al., 2024; Ofer and Linial, 2025)。一个相关的子问题是变异效应预测，其中监督方法在深度突变扫描 (DMS) 测定上进行训练，而零样本方法利用 pLM 对数似然 (Rives et al., 2021)。ProtSent 采取中间路径：它在训练期间使用 DMS 数据作为辅助回归信号（CoSENT 损失），但不训练特定任务的预测器，而是依赖重构的嵌入空间来捕捉连续的适应性景观。

## 3 方法

### 3.1 问题定义

设 $f_{\theta}: \mathcal{S} \rightarrow \mathbb{R}^d$ 表示由 $\theta$ 参数化的蛋白质语言模型，它将氨基酸序列 $s \in \mathcal{S}$ 映射到 $d$ 维嵌入。给定一组从生物关系（共享家族、结构相似性、物理相互作用）中抽取的蛋白质对 $(s_i, s_j)$，我们的目标是微调 $\theta$，使得生物相关对的余弦相似度 $\text{sim}(f_{\theta}(s_i), f_{\theta}(s_j))$ 较高，而不相关对的相似度较低。微调后，嵌入空间应支持通过简单的最近邻查找来完成下游任务，而无需特定任务的监督。

### 3.2 主干架构

我们使用 ESM-2 (Lin et al., 2023) 作为主干编码器，包装在 SentenceTransformers 框架 (Reimers and Gurevych, 2019) 中。ESM-2 是一种在 UniRef50 序列 (Suzek et al., 2015) 上使用掩码语言建模预训练的蛋白质语言模型。我们实验了两个模型规模：ESM-2 35M（12 层，480 维嵌入）和 ESM-2 150M（30 层，640 维嵌入）。在对比微调期间，所有 Transformer 层都进行微调。序列级别嵌入通过对非填充残基令牌进行平均池化获得，为每个蛋白质生成单个向量 $h \in \mathbb{R}^d$。输入序列截断为前 512 个残基；我们不应用中心裁剪。

### 3.3 训练数据

ProtSent 在五个蛋白质对数据集上进行训练，总结在表 1 中。进一步的细节和过滤参数见附录 12。

**表 1：** 所有过滤、聚类和去污染后的训练数据集（原始上游尺寸更大；见附录 12）。“组标签”是 MNRL 源的正例对标准；STRING 是本地的配对数据，DMS 使用连续的 CoSENT 分数。

#### Pfam 家族对

Pfam-A 全长比对域。正例是属于同一家族的蛋白质对 (Mistry et al., 2021)。我们使用 MMseqs2 easy-linclust 在 70% 一致性下去重，留下 26,796 个家族和 15,284 个 clans 中的 32.9M 个域。批次内负例是批次内的其他家族。单例家族被丢弃。该数据集在域级别编码进化和功能同源。

#### Pfam 难负例

我们生成新颖的难进化负例。对于每个家族中的每个锚点，使用 Pfam-A 隐马尔可夫模型匹配状态发射（PSSM），我们从每残基 $\Delta S < -1.0$ 的位置中采样突变体，这些位置至少相距 $\max(6, L/8)$，直到总对数几率下降满足 $\sum_i \Delta S_i \leq -16.0$。这是一个任意截止值，用于可能“破坏保守谱系”并具有有害性，同时保持 >98% 的相似性。这些难负例迫使模型学习比简单序列一致性更细粒度的判别特征。

#### AlphaFold DB 结构对

AFDB50 序列（pLDDT > 70，非片段），来自 AlphaFold DB (Varadi et al., 2022; Barrio-Hernandez et al., 2023) 的预测结构，通过 Steinegger-Lab AFDB Foldseek (van Kempen et al., 2024) 结构聚类（聚类标志 $\{1, 2\}$）与其 AFDB50 代表连接。正例标签是 Foldseek 聚类。这提供了大规模的结构监督，迫使嵌入空间捕捉三维结构关系。这些是无监督的预测聚类（不同于策划的 SCOP 家族）。

#### StringDB 相互作用对

来自 STRING 数据库 (Szklarczyk et al., 2023) 的蛋白质-蛋白质相互作用对，过滤为 $combined\_score \geq 400$（中等置信度）。这些捕捉功能关联、通路中的共现、复合物或共表达，提供了与同源或结构相似性不同的生物关系维度。使用 MMseqs2 linclust 去除与 Bernett PPI 基准测试集中任何蛋白质序列一致性超过 50% 的序列，以防止数据泄露。剩余序列全局去重至 50% 一致性，并过滤长度为 $[10, 1024]$。

#### DMS 适应性数据

ProteinGym DMS 和临床替换及插入缺失分数按测定进行 z-score 标准化，裁剪至 $[-3, 3]$ 并缩放至 $[0, 1]$；临床标签映射 Pathogenic $\rightarrow 0$, Benign $\rightarrow 1$。该辅助损失操作于单个蛋白质而非对。与下游评估重叠的测定家族（GB1 和 GFP 变异体）被丢弃，并且使用其显式分割元数据（如果存在）或相同的确定性每组 80/20 分割移除监督基准测试折，因此训练中使用的所有 DMS 行都不会后来作为监督回归进行评估。

#### 泄露控制

训练-测试重叠的主要风险来自 Pfam 和 AlphaFold DB 数据集。对于 Pfam，训练对从家族成员资格标签中采样，这些标签与用于各个下游任务的保留评估分割不重叠（例如，远缘同源折叠级别评估使用不重叠的折叠分区，而不是家族级别标签）。对于 AlphaFold，训练使用 Foldseek 聚类共成员资格而不是 SCOPe 标签；我们没有针对 SCOPe 测试域过滤 AFDB 序列，因此部分序列重叠是可能的。我们将此作为局限性指出：虽然训练标签...

ProtSent：蛋白质句子转换器

相似文章

蛋白质的散文——通过 Brian Hie 的作品学习品味与视野

通过可微图划分对蛋白质语言模型表示的结构解释

通过建模幸存者偏差提升蛋白质功能预测

使用 Sentence Transformers 训练和微调多模态 Embedding 与 Reranker 模型

深度学习在蛋白质复合物预测与设计中的应用

提交意见反馈