迈向通用基因调控网络推断:在单细胞基础模型中解锁可泛化的调控知识

arXiv cs.LG 论文

摘要

本文提出了一种利用单细胞基础模型进行通用基因调控网络(GRN)推断的新范式,并引入了虚拟值扰动和梯度轨迹方法来提炼调控知识。

arXiv:2605.08128v1 公告类型:新文章 摘要:基因调控网络(GRN)推断对于理解复杂的细胞机制至关重要,而单细胞转录组数据使其变得可行。随着单细胞基础模型(scFMs)的出现,人们普遍期望增强的转录组编码将革新GRN推断。然而,我们观察到其性能仍远未令人满意。主要原因在于,标准的基于重建的预训练目标往往无法显式地捕获潜在的调控信号。为了弥补这一差距,我们首先引入了一个GRN泛化基准,旨在评估对未见基因和数据集的调控预测能力。该基准依赖于scFMs的零样本能力,对传统方法具有固有的挑战性。此外,为了释放基础模型中的调控知识,我们提出了两种新颖的方法——虚拟值扰动和梯度轨迹,将scFMs中的隐式调控信息提炼为高度可泛化的基因间特征。大量实验表明,我们的方法显著优于现有方法,为利用scFMs在通用GRN推断中的潜力确立了新范式。
查看原文
查看缓存全文

缓存时间: 2026/05/12 06:46

# 迈向通用基因调控网络推断:在单细胞基础模型中解锁可泛化的调控知识

来源:https://arxiv.org/html/2605.08128

###### 摘要

基因调控网络(GRN)推断对于理解复杂的细胞机制至关重要,而单细胞转录组数据使得这一过程变得可行。随着单细胞基础模型(scFMs)的出现,人们普遍期望增强的转录组编码能够革新 GRN 推断。然而,我们观察到其性能仍远未令人满意。主要原因在于,标准的基于重建的预训练目标往往未能明确捕捉潜在的调控信号。为了弥补这一差距,我们首先引入了一个 GRN 泛化基准,旨在评估模型在未见过基因和数据集上的调控预测能力,该基准依赖于 scFMs 的零样本(zero-shot)能力,对传统方法而言具有内在挑战性。此外,为了释放基础模型中的调控知识,我们提出了两种新颖的方法——虚拟值扰动(Virtual Value Perturbation)和梯度轨迹(Gradient Trajectory),旨在从 scFMs 中蒸馏出隐式的调控信息,转化为高度可泛化的基因间特征。大量实验表明,我们的方法显著优于现有方法,为利用 scFMs 的潜力进行通用 GRN 推断确立了新范式。

机器学习,ICML

## 1 引言

参见图1说明:(a) 传统 GRN 推断在封闭世界设置下运行,优化的 $f_{\theta}$ 在面对来自异构数据集的未见过基因时,因维度不匹配而表现不佳。(b) 我们的 UGRN 设置利用冻结的 scFMs 进行通用特征提取,通过“翻译器” $f_{\phi}$ 将调控预测泛化到涉及未见过基因和数据集的开放世界场景。

基因调控网络(GRN)通过编码基因间错综复杂的因果依赖关系,构成了调控复杂生物过程的核心机制(Davidson et al., 2002)。单细胞 RNA 测序(scRNA-seq)技术的最新进展提供了高分辨率、细胞水平的基因表达谱,使得直接从观测数据中估计 GRN 成为可能(Aibar et al., 2017; Pratapa et al., 2020)。例如,如果基因 $g_i$ 的表达与 $g_j$ 一致相关,则假设存在潜在的调控连接(Eisen et al., 1998)。传统上,如图1(a)所示,GRN 推断依赖于在特定数据集中识别基因间的共表达依赖性(Song et al., 2012)。然而,这些方法通常局限于“封闭世界”设置,仅在训练期间观察到的基因上有效,难以泛化到来自异构数据集的未见过基因。这一限制主要源于缺乏统一的表达流形以及基因间可泛化的调控表示。

近年来,单细胞基础模型(scFMs)(Hao et al., 2024; Yang et al., 2024)作为一种有前景的范式出现,用于解决各种下游生物任务,包括 GRN 推断。通过在大规模基因表达数据上通过自监督目标(如掩码值重建)进行预训练,scFMs 有望捕捉基因间关系的深刻生物学先验。因此,越来越多的研究试图通过两种主要策略利用 scFMs 进行零样本 GRN 推断:(1) 计算机内扰动(In-silico Perturbation),通过将源基因 $g_i$ 的输入表达归零来模拟生物敲除,以观察目标基因 $g_j$ 的响应(Theodoris et al., 2023; Cui et al., 2024);以及 (2) 基于注意力的分析,将模型的注意力权重解释为调控强度的代理,以预测基因间关系(Yang et al., 2022; Cui et al., 2024)。尽管这些方法在理论上具有吸引力,但近期的工作指出,它们往往表现不佳,有时甚至未能超越随机预测(Jin et al., 2025; Ahlmann-Eltze et al., 2025)。这种现象可能源于基于重建的预训练与下游基因间推断需求之间的不对齐,导致生物学界对 scFMs 的经验效用的怀疑日益增加(Wu et al., 2025)。

在本文中,我们认为 scFMs 拥有丰富的、可迁移的调控知识,但当前方法过于简单,无法弥合基于相关性的重建输出与基因调控之间的差距。例如,通过简单的“归零”扰动估计的基因 $g_i$ 对 $g_j$ 的影响,仅仅反映了模型在重建 $g_j$ 时对 $g_i$ 的依赖,这既不代表真正的因果关系,也不代表两者之间的完整相关性。然而,我们假设这种条件化的基因间影响反映了 scFMs 内部对基因关系的一致理解。如图1所示,挑战在于将这种潜在知识“翻译”为基因调控见解。为此,我们引入了一种称为通用基因调控网络推断的新设置。该范式要求模型学习一个映射(即“翻译器”),将源自 scFM 的基因间知识映射到源基因的真实 GRN,然后泛化到来自异构数据集的未见过基因。这一设置为评估基础模型是否能够捕捉可泛化的调控原则提供了严格的基准,这是受限于数据集特定表达理解的传统统计方法无法实现的能力。

我们首先通过利用基因嵌入和传统的基因间“归零”扰动影响作为特征来映射基因调控关系,建立了两个基线,从而构建了通用 GRN 设置的基准。为了从 scFMs 中获得更深奥、更具泛化能力的基因间特征,我们提出了两种新颖的方法:虚拟值扰动(VVP)和梯度轨迹(GDT)。对于 VVP,鉴于不同基因具有不同的基线表达,我们指出“归零”操作引入了不一致的扰动幅度。因此,我们采用统一的虚拟值作为基础表达来标准化这一过程,确保基因交互在一致的参考值下进行查询。此外,由于 scFMs 可以编码和重建超出观测细胞范围的任意表达值,我们定义了一系列扰动目标值,而不是单一零值,以提取更丰富的基因间影响。对于 GDT,由于离散扰动仅代表变化区间上的影响,我们认为特定表达水平上的影响应由梯度来表征。利用 scFMs 的梯度反向传播,我们提出了梯度轨迹方法,沿一系列虚拟值提取梯度,以反映不同表达水平下的基因关系。

在多个数据集和不同设置下的广泛实验表明,我们提出的方法显著优于传统的基于 scFM 的方法和我们的基线。结果表明,当适当查询时,scFMs 展现出对 GRN 的稳定且深刻的理解,远超随机预期,从而验证了大规模预训练在单细胞转录组学中的效用。值得注意的是,由于我们的方法利用虚拟值提取基因间特征进行 GRN 推断,即使在缺乏真实世界表达测量的情况下,它也能预测调控连接,为构建通用基因调控网络提供了强大工具。

我们的主要贡献总结如下:

- • 我们分析了基于 scFM 的 GRN 推断,指出了限制当前方法的重建目标与基因调控之间的关键不对齐问题。
- • 我们引入了 UGRN 框架,这是一个基准,用于评估 scFM 调控知识在未见过基因和异构数据集上的泛化能力。
- • 我们提出了 VVP 和 GDT,通过从 scFMs 中提取可泛化的调控特征,在广泛实验和消融研究中取得了最先进(SOTA)性能。

## 2 相关工作

基因调控网络推断。从单细胞转录组推断 GRN 已从统计方法演变为深度学习框架。传统方法利用基于树的回归(Huynh-Thu et al., 2010; Moerman et al., 2019)或信息论指标(Margolin et al., 2006; Faith et al., 2007)来捕捉非线性共表达模式。近期的深度学习 approaches,如 GNNs 和 VAEs,显式建模网络拓扑以学习基因依赖关系的潜在表示(Chen and Liu, 2022; Shu et al., 2021)。然而,这些方法主要在“封闭世界”假设下运行,捕捉特定数据集的流形,且在不重新训练的情况下无法泛化到未见过基因(Kedzierska et al., 2025)。相比之下,我们引入了通用 GRN 设置。我们不拟合特定数据集的分布,而是利用预训练基础模型提取可泛化的调控特征,从而能够泛化到未见过基因和异构数据集。

单细胞基础模型。受大型语言模型启发,单细胞基础模型(scFMs)如 scGPT(Cui et al., 2024)、Geneformer(Theodoris et al., 2023)和 scBERT(Yang et al., 2022)通过在大规模细胞图谱上进行掩码值建模来学习转录组表示。目前使用 scFMs 进行 GRN 推断的策略依赖于简单的启发式方法,要么将原始注意力权重解释为调控强度(Kalfon et al., 2025; Yang et al., 2022),要么通过将输入基因归零来进行计算机内扰动(Theodoris et al., 2023; Cui et al., 2024)。然而,近期的基准测试表明,这些方法往往表现不佳(Kedzierska et al., 2025; Jin et al., 2025; Ahlmann-Eltze et al., 2025; Wu et al., 2025)。我们认为,这种失败源于 scFMs 实施的简单性,而非其缺乏调控知识。与直接启发式映射不同,我们提出虚拟值扰动和梯度轨迹,以主动从冻结的 scFMs 中蒸馏隐式调控信号,弥合基于相关性的特征与基因调控之间的差距。

## 3 方法

### 3.1 预备知识

当前的 GRN 推断研究主要表征单个基因对之间的调控依赖性。遵循 Wang et al. (2024),我们将 GRN 推断视为成对预测任务。注意,尽管全局 GRN 拓扑构成了重要的背景知识(Barabási and Oltvai, 2004),但此类信息实际上已纳入潜在基因嵌入中,以促进成对学习目标。因此,为简便起见,我们省略了显式的全局网络表述,专注于成对学习。

**GRN 推断**。给定一组基因 $G=\{g_1, \dots, g_K\}$ 和一个单细胞基因表达矩阵 $X \in \mathbb{R}^{N \times K}$,令 $x_i \in \mathbb{R}^N$ 表示基因 $g_i$ 在 $N$ 个观测细胞中的表达向量(对应于 $X$ 的第 $i$ 列)。我们可以访问真实的调控注释,形式化为训练集 $D_{tr} = \{(x_i, x_j, y_{ij})\}_{(i,j) \in \Omega_{tr}}$,其中 $y_{ij} \in \{0, 1\}$ 指示 $g_i$ 是否调控 $g_j$,$\Omega_{tr}$ 表示观测到的对索引集合。

GRN 推断的基本目标是基于 $D_{tr}$ 学习一个从表达到调控概率的参数化映射函数 $f_\theta$,以泛化到相同表达矩阵 $X$ 下保留测试集 $D_{te}$ 中的未见对。形式上,对于 $D_{te}$ 中的任意对 $(g_i, g_j)$,模型预测一个调控得分:

$s_{ij} = f_\theta(x_i, x_j), \quad (i,j) \in \Omega_{te}. \quad (1)$

**传统方法**。现有方法通常采用线性回归或深度神经网络,通过最小化 $D_{tr}$ 上的经验风险来学习映射 $f_\theta$(Haury et al., 2012; Yuan and Bar-Joseph, 2019)。训练目标公式化为二元交叉熵损失:

$\mathcal{L}_\theta = - \sum_{(i,j) \in \Omega_{tr}} [y_{ij} \log s_{ij} + (1 - y_{ij}) \log(1 - s_{ij})], \quad (2)$

其中 $s_{ij}$ 表示方程 (1) 中定义的基因 $i$ 和基因 $j$ 之间的预测调控概率。

然而,这一范式依赖于训练数据和测试数据共享相同表达分布和图结构的假设。由于特征 $x_i$ 的维度与 $D_{tr}$ 中的细胞数量绑定,学习到的函数 $f_\theta$ 受限于此固定大小。因此,当应用于具有不同细胞计数 $N'$ 的新数据集时,表达维度的不匹配使模型无效。此外,如果该方法显式编码 $G$ 的全局拓扑(Chen and Liu, 2022),它将无法泛化到具有未见网络拓扑的新型基因集 $G'$。

**基于 scFM 的方法**。单细胞基础模型(scFMs)(Cui et al., 2024)通过在大规模单细胞语料库上进行大规模预训练来编码基因表示和基因间...

相似文章

可控分子生成基础模型

arXiv cs.LG

提出CoMole,一种基于基序感知图扩散和强化学习的可控分子生成基础模型,在材料和药物发现基准测试中实现了卓越的可控性。

迈向虚拟细胞中的自主机制推理

Hugging Face Daily Papers

本文介绍了VCR-Agent,一个多智能体框架,通过结构化形式化和VC-TRACES数据集生成并验证机制性解释,从而增强大型语言模型在生物学研究中的应用。该方法通过虚拟细胞中的验证性机制推理,提高了基因表达预测的事实准确性。

CellBRIDGE: 通过交互感知对齐学习细胞轨迹

arXiv cs.LG

CellBRIDGE是一种新方法,通过引入配体-受体相互作用成本来模拟细胞间通讯,增强了对scRNA-seq轨迹推断的最优传输,改进了对齐并实现了可解释的计算机模拟扰动。

广义神经元

ML at Berkeley

本文探讨了深度学习中的通用近似定理,分析了使用 ReLU 激活函数时单个神经元和神经网络层的表示能力。