通过建模幸存者偏差提升蛋白质功能预测

arXiv cs.LG 2026/05/11 04:00 论文

摘要

本文介绍了 Evo-PU，一种正无标签学习框架，通过利用进化突变过程对蛋白质序列数据中的幸存者偏差进行建模。作者证明，在预测流感、RSV 和 SARS-CoV-2 的蛋白质功能方面，Evo-PU 优于标准的正无标签方法和蛋白质语言模型。

arXiv:2605.06879v1 公告类型：新文章摘要：自然界的蛋白质序列数据表现出幸存者偏差：我们只能观察到那些存活并繁殖的生物体的数据，而功能丧失的蛋白质突变会被自然选择淘汰。因此，预测蛋白质序列是否具有功能通常仅需要学习正例。虽然正无标签（PU）学习框架为此问题提供了一般的解决方案，但现有的 PU 方法忽略了塑造序列可观测性并导致幸存者偏差的进化过程。考虑一个序列与监控良好的生物体中常见观察到的蛋白质变体仅相差一个突变的情况。如果该序列具有功能，它很可能被观察到。如果它没有被观察到，这表明其不具有功能。相反，那些不太可能通过突变产生的序列可能只是因为从未出现过而缺失。因此，在训练模型时，应该对这两种类型的缺失序列区别对待。在这项工作中，我们提出了 Evo-PU，一种使用核苷酸突变的科学理解来建模监控良好的单生物体序列数据的幸存者偏差的 PU 学习框架。在三个使用单生物体均匀覆盖监控数据的预测任务中——预测留出的流感和呼吸道合胞病毒（RSV）诱变研究的结果，以及预测未来的 SARS-CoV-2 变体——Evo-PU 优于标准的正无标签学习、单类分类（OCC）和蛋白质语言模型（PLMs）。在来自多生物体 ProteinGym 数据集的预测任务中，这些数据集具有更多异质的监控覆盖范围，我们确定了推广我们方法的机会。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:02

# 通过建模幸存者偏差实现更好的蛋白质功能预测

来源: https://arxiv.org/html/2605.06879 \NAT@set@cites
Zhongmou Chao^1^ <[email protected]> & Poompol Buathong^2^[^1^] <[email protected]> & Ekaterina Selivanovitch^1^ <[email protected]>
Susan Daniel^1^ <[email protected]> & Peter I. Frazier^3^ <[email protected]>

^1^ 美国康奈尔大学化学与生物分子工程史密斯学院
^2^ 美国康奈尔大学应用数学中心
^3^ 美国康奈尔大学运筹与信息工程学院

###### 摘要

自然界中的蛋白质序列数据表现出幸存者偏差：我们只能观察到那些生存并繁殖的生物体的数据，而非功能性蛋白质突变则被自然选择淘汰。因此，预测蛋白质序列是否功能性通常仅能从正面样本中学习。虽然正-未标记（Positive-Unlabeled, PU）学习框架为这一问题提供了通用解决方案，但现有的 PU 方法忽略了塑造序列可观测性并导致幸存者偏差的进化过程。考虑一个序列，它与良好监测生物体中常见的蛋白质变体仅相差一次突变。如果该序列具有功能性，它很可能被观察到。如果未被观察到，则暗示其非功能性。相比之下，那些不太可能通过突变产生的序列之所以缺失，仅仅是因为它们从未产生过。因此，在训练模型时，应对这两类缺失序列区别对待。在本工作中，我们提出了 Evo-PU，这是一种 PU 学习框架，它利用对核苷酸突变的科学理解，来建模针对良好监测的单生物体序列数据的幸存者偏差。在三项使用单生物体均匀覆盖监测数据的预测任务上——预测留出的流感病毒和呼吸道合胞病毒（RSV）诱变研究的结果，以及预测未来的 SARS-CoV-2 变体——Evo-PU 的表现优于标准 PU 学习、单类分类（OCC）和蛋白质语言模型（PLMs）。在具有更 heterogeneous 监测覆盖范围的多生物体 ProteinGym 数据集的预测任务中，我们确定了推广该方法的机会。

## 1 引言

理解蛋白质序列与功能之间的关系对于环境可持续性、人类健康和材料科学至关重要（Tournier et al., 2023; Tiller and Tessier, 2015; Weie et al., 2016）。然而，现有的蛋白质数据集并非序列空间的无偏样本：它们受到进化和实验选择过程的塑造，系统地过代表现功能性序列，同时过滤掉非功能性序列。这造成了幸存者偏差（Bermúdez-Guzmán et al., 2020; Thomas et al., 2022），从根本上限制了标准的监督学习方法。

这种偏差有两个来源。首先，自然进化通过选择优先保留功能性变体，导致蛋白质数据库主要由增强生物体生存的序列主导。其次，生物淘选等实验选择协议系统地富集具有所需特性（例如，结合亲和力）的序列，而丢弃那些未能达到功能阈值的序列（Giordano et al., 2001; McGuire et al., 2009）。因此，蛋白质数据集主要包含正面样本，而经过验证的负样本很少。这种结构使得蛋白质功能预测成为一个正-未标记（PU）学习问题（Liu et al., 2003; Bekker and Davis, 2020），其中观察到的序列是功能性的（positive），而其他所有序列则是未标记的——它们可能是功能性但未被观察到，也可能是真正非功能性的。

现有的 PU 方法通过引入类先验来解决这一设置：即一个未标记序列真正为正的概 率。然而，这些方法通常假设所有序列的类先验是恒定的，忽略了一个序列被观察到的概率取决于其进化可及性这一事实。这一假设在生物学上是不现实的，并限制了模型性能：与需要多次同时突变的序列相比，仅与高流行变体相差一次突变的序列更有可能被观察到（如果具有功能性）。

替代方法包括单类分类（OCC）（Tax and Duin, 2001; Perera et al., 2021）以及基于多序列比对（MSA）训练的蛋白质语言模型（PLMs），用于捕捉进化约束并估计功能可能性（Meier et al., 2021; Frazer et al., 2021; Thadani et al., 2023）。虽然 PLM 能有效预测整体蛋白质适应性，但它们不太适合捕捉来自短且局部作用的肽基序的细粒度功能信号。我们在附录 A 中提供了相关文献的详细回顾。

为了解决 PU 学习、OCC 和基于 PLM 的方法的局限性，我们提出了 Evo-PU，这是一种 PU 学习框架，通过进化信息驱动的、依赖于序列的类先验来建模幸存者偏差。我们的核心见解是，由于邻近序列更有可能通过可行的突变途径产生，因此那些在自然界中流行的功能性核苷酸序列比进化距离较远的功能性序列更有可能被观察到。通过在核苷酸水平上对蛋白质进化进行建模，Evo-PU 捕捉了突变可及性和流行度如何共同决定哪些功能性序列被观察到。这种方法特别适用于具有均匀监测覆盖范围的单生物体序列数据，其中进化过程得到了充分表征，且观察概率相对同质。这一重点为将来扩展到具有更 heterogeneous 监测覆盖范围的多生物体数据集奠定了基础。

我们在多个使用单生物体监测数据的预测任务上评估了 Evo-PU：预测留出的流感病毒和呼吸道合胞病毒（RSV）诱变研究的结果，以及预测未来的 SARS-CoV-2 变体。在所有任务中，Evo-PU 的表现均优于标准 PU 学习、单类分类（OCC）和蛋白质语言模型（PLM）方法。我们进一步在蛋白质 ProteinGym 基准上评估了 Evo-PU，以识别将该方法推广到良好监测的单生物体数据之外的机会。

## 2 Evo-PU 方法

我们现在形式化蛋白质序列观察的数据生成过程，并推导 Evo-PU 似然。第 2.1 节介绍概率模型，第 2.2 节将其与现有方法联系起来。第 2.3 节介绍了一种核苷酸出现模型，用于估计核苷酸序列通过从前体序列的突变途径产生的概率，这是 Evo-PU 似然中的一个关键组成部分。这利用了第 2.4 节中介绍的核苷酸突变模型。最后，由于随着氨基酸序列长度的增加，计算确切似然在计算上变得不可行，我们在第 2.5 节中提出了一种准确的快速近似方法。

### 2.1 数据生成过程与似然

我们通过对突变、选择和监测过程对功能性序列的观察过程进行建模。令 $\mathcal{A}$ 表示 20 种天然氨基酸的集合。令 $\mathcal{X}$ 为具有给定长度 $L$ 的氨基酸序列集合。令 $A(x) \in \{0,1\}$ 表示氨基酸序列 $x \in \mathcal{X}$ 是否表现出感兴趣的功能特性。我们的目标是估计概率分类器 $p_a(x;\theta) = P(A(x)=1)$ 中的参数 $\theta$。我们的方法对所使用的分类器持不可知论态度，并支持任何连续可微的神经架构。

在生物系统中，氨基酸序列是通过遗传密码翻译核苷酸序列产生的。每种氨基酸由三个核苷酸组成的密码子编码。令 $\mathcal{N}$ 表示核苷酸集合（DNA 为 $\{A,C,G,T\}$ 或 RNA 为 $\{A,C,G,U\}$）。某些密码子是终止信号，不编码氨基酸；我们将 $\mathcal{Y}$ 定义为长度为 $3L$ 的有效核苷酸序列集合，这些序列翻译为 $\mathcal{X}$ 中的氨基酸序列。令 $B: \mathcal{Y} \to \mathcal{X}$ 表示生物翻译映射。对于给定的氨基酸序列 $x$，我们定义 $\mathcal{Y}(x) = \{ y \in \mathcal{Y} : B(y)=x \}$ 为编码 $x$ 的核苷酸序列集合。

新的核苷酸序列通过突变产生，并且根据生物生存能力和选择压力可能持续存在也可能不存在。我们使用术语 *emergence*（出现）来表示核苷酸序列由突变生成的事件。令 $E(y) \in \{0,1\}$ 表示核苷酸序列 $y$ 是否出现。令 $\alpha$ 为第二个概率模型 $p_e(y;\alpha) = P(E(y)=1)$ 中的未知 nuisance 参数向量。关于 $p_e$ 的功能形式的详细信息见第 2.3 节。

我们令 $O_{\mathcal{Y}}(y) \in \{0,1\}$ 表示核苷酸序列 $y$ 是否被观察到，并令 $D_{\mathcal{Y}}$ 表示观察到的核苷酸序列集合。我们假设 $y$ 被观察到，如果它出现、编码功能性蛋白质，并且被一个具有某种未知成功概率 $p_o$ 的监测过程检测到。因此，$P(O_{\mathcal{Y}}(y)=1 | E(y), A(B(y))) = p_o E(y) A(B(y))$。

我们令 $O_{\mathcal{X}}(x)$ 表示氨基酸序列 $x$ 是否被观察到，并令 $D_{\mathcal{X}}$ 表示观察到的此类序列集合。我们有关系式 $O_{\mathcal{X}}(x) = \mathbb{I}\left(\exists y \in \mathcal{Y}(x) \text{ such that } O_{\mathcal{Y}}(y)=1\right)$。

结合功能性、出现性和可观测性，得到：
$$ P(O_{\mathcal{X}}(x)=1) = p_a(x;\theta) \left[ 1 - \prod_{y \in \mathcal{Y}(x)} (1 - p_o p_e(y;\alpha)) \right]. $$

右边的第二项定义了一个依赖于序列的类先验，对应于功能性序列 $x$ 被观察到的概率。给定观察到的氨基酸序列 $D_{\mathcal{X}} \subset \mathcal{X}$，我们将 Evo-PU 对数似然定义为：
$$ \sum_{x \in D_{\mathcal{X}}} \log P(O_{\mathcal{X}}(x)=1) + \sum_{x' \in D_{\mathcal{X}}'} \log \left( 1 - P(O_{\mathcal{X}}(x')=1) \right), \tag{1} $$
其中 $D_{\mathcal{X}}'$ 是 $D_{\mathcal{X}}$ 的补集。对于大的序列长度 $L$，计算此似然在计算上具有挑战性，因为 $D_{\mathcal{X}}'$ 随 $L$ 指数增长（假设 $D_{\mathcal{X}}$ 的大小保持有界）。第 2.5 节描述了一种近似方法，该方法将注意力限制在一组具有高出现概率的未观察序列上，这些序列是通过从观察数据中的核苷酸级突变生成的。这包括 $D_{\mathcal{X}}$ 补集中对公式 (1) 影响最大的项。这提供了可行的计算，同时旨在准确近似精确的对数似然。我们通过最大化这个近似的对数似然公式 (1) 加上正则化惩罚来训练分类器以估计 $\theta$ 和 nuisance 参数 $\alpha, p_o$。我们使用与 $\|\theta\|^2$ 成正比的惩罚，尽管其他惩罚可能表现相似。

### 2.2 Evo-PU 与 PU 学习和基于 PLM 方法的比较

在本节中，我们将公式 (1) 中的 Evo-PU 似然与现有的 PU 学习似然公式进行比较，并讨论 Evo-PU 与基于 PLM 的方法之间的主要区别。

**与现有 PU 学习似然的比较。** 这里我们介绍 PU 学习框架内的两种相关似然公式：

- **经典二元分类器似然**，假设未观察到的序列缺乏功能特性：
  $$ \sum_{x \in D_{\mathcal{X}}} \log p_a(x;\theta) + \sum_{x' \in D_{\mathcal{X}}'} \log (1 - p_a(x';\theta)); $$
- **Song et al. (2021) 提出的 Protein-PU 似然**，其中包含固定的标记效率参数 $q \in (0,1)$：
  $$ \sum_{x \in D_{\mathcal{X}}} \log q p_a(x;\theta) + \sum_{x' \in D_{\mathcal{X}}'} \log (1 - q p_a(x';\theta)). $$

所有三个似然都具有相似的结构：对 $D_{\mathcal{X}}$ 中观察到的序列求和，以及对不在 $D_{\mathcal{X}}$ 中的序列进行第二项求和。经典似然可以视为 Evo-PU 和 Protein-PU 两者的特例。在公式 (1) 中，对于所有 $y \in \mathcal{Y}(x)$ 设置 $p_o p_e(y;\alpha)=1$，意味着每个功能性氨基酸序列始终被观察到，从而将 Evo-PU 简化为经典似然。同样，在 Protein-PU 中设置 $q=1$ 也恢复了经典形式。

直接比较 Evo-PU 和 Protein-PU，Protein-PU 使用常数参数 $q$ 对标记效率进行建模，表示功能性序列被标记的概率。相比之下，Evo-PU 通过项 $1 - \prod_{y \in \mathcal{Y}(x)} (1 - p_o p_e(y;\alpha))$ 将类先验建模为依赖于序列的，这反映了序列通过突变过程出现并被观察到的可能性。这种依赖于序列的公式捕捉了固定效率参数无法解释的观察过程中的变化，导致与自然数据生成过程更好的对齐以及改进的预测性能。

**Evo-PU 与基于 PLM 方法的区别。** 我们强调了 Evo-PU 与基于 PLM 的方法之间的几个关键区别。首先，基于 PLM 的方法主要捕捉与整体进化适应性相关的模式，而 Evo-PU 旨在

通过建模幸存者偏差提升蛋白质功能预测

相似文章

ProtSent：蛋白质句子转换器

通过分类器引导的胚系吸收离散扩散实现抗体序列的条件生成

通过大型模型的演化

SurvivalPFN：通过上下文贝叶斯推断进行生存预测的摊销

蛋白质的散文——通过 Brian Hie 的作品学习品味与视野

提交意见反馈