CellBRIDGE: 通过交互感知对齐学习细胞轨迹
摘要
CellBRIDGE是一种新方法,通过引入配体-受体相互作用成本来模拟细胞间通讯,增强了对scRNA-seq轨迹推断的最优传输,改进了对齐并实现了可解释的计算机模拟扰动。
arXiv:2605.30635v1 公告类型:新论文
摘要:从群体快照推断动态是机器学习和生物学中的一个基本挑战。在单细胞RNA测序(scRNA-seq)中,破坏性测量无法直接追踪单个细胞随时间的变化,使得轨迹推断存在欠定性。最优传输(OT)为快照对齐提供了理论框架,但一个长期存在的建模问题是什么成本函数能产生具有生物学意义的匹配。标准OT方法依赖于基因表达距离,隐含地将细胞视为独立点,并忽略了由配体-受体信号介导的结构性细胞间通讯。我们提出了CellBRIDGE(基于细胞的正则化交互驱动基因表达),该方法通过引入源自配体-受体活动的定向、类型化交互成本,增强了基于特征的OT。通过显式建模细胞间通讯,CellBRIDGE在合成和真实scRNA-seq数据集上,相比仅基于特征的基线方法,改善了跨快照匹配和下游轨迹估计。值得注意的是,CellBRIDGE实现了机制上可解释的计算机模拟扰动:在肺癌数据上,沉默特定的配体-受体对会诱导轨迹偏移,重现靶向通路抑制的预期效果。
查看缓存全文
缓存时间: 2026/06/01 09:29
# CellBRIDGE 补充材料 来源:https://arxiv.org/html/2605.30635 Nicolas HuynhTennison LiuRoderik M\. KortleverGerard I\. EvanDavid L\. BentleyMihaela van der Schaar ###### 摘要 从群体快照推断动态是机器学习和生物学中的一个基本挑战。在单细胞RNA测序(scRNA-seq)中,破坏性测量阻碍了直接追踪单个细胞随时间的变化,使得轨迹推断问题变得欠定。最优传输(OT)为快照*对齐*提供了一个原则性框架,但一个长期存在的建模问题是:哪种*代价函数*能产生具有生物学意义的耦合。标准OT方法依赖于基因表达距离,隐式地将细胞视为独立点,忽略了由配体-受体信号介导的结构化细胞-细胞通信。我们提出了CellBRIDGE(基于细胞的规则化相互作用驱动基因表达),它在基于特征的OT基础上,引入了一种由配体-受体活性导出的有向、带类型相互作用代价。通过显式建模细胞-细胞通信,CellBRIDGE在合成和真实scRNA-seq数据集上,相较于仅使用特征的方法,改善了跨快照耦合和下游轨迹估计。值得注意的是,CellBRIDGE能够进行具有机制可解释性的*计算机模拟*扰动:在肺癌数据上,沉默特定配体-受体对会诱导轨迹偏移,重现了预期靶向通路抑制的效果。 机器学习,ICML ## 1 引言 理解细胞群体如何随时间演化,对于发育、疾病和治疗干预至关重要(Yeo等人,2022(https://arxiv.org/html/2605.30635#bib.bib84);Qiu等人,2022(https://arxiv.org/html/2605.30635#bib.bib83))。单细胞RNA测序(scRNA-seq)以前所未有的分辨率测量基因表达,但其破坏性本质阻碍了追踪单个细胞随时间的变化,使得从群体快照进行轨迹推断本质上是不确定的(Schiebinger等人,2019(https://arxiv.org/html/2605.30635#bib.bib37);Bunne等人,2024(https://arxiv.org/html/2605.30635#bib.bib79))。推断单细胞轨迹的能力对药物发现具有重大意义,因为探究机制和干预的实验成本高昂且缓慢(Sertkaya等人,2024(https://arxiv.org/html/2605.30635#bib.bib95)):计算机模拟动态可以指导实验设计并优先确定靶点(Yue和Dutta,2022(https://arxiv.org/html/2605.30635#bib.bib96))。 **推断细胞动态的挑战**。学习单个细胞的轨迹,即*轨迹推断*任务(Bunne等人,2024(https://arxiv.org/html/2605.30635#bib.bib79)),需要从未对齐的快照中重建平滑动态。这提出了一个独特的挑战:由于测量是破坏性的,无法在多个时间点观测同一个细胞。不平衡的细胞群体以及基因表达的噪声性和稀疏性进一步加剧了这些困难(Adil等人,2021(https://arxiv.org/html/2605.30635#bib.bib87);Schiebinger等人,2019(https://arxiv.org/html/2605.30635#bib.bib37))。 **从图启发式到耦合**。经典方法构建细胞-细胞kk近邻图,并通过扩散距离或生成树启发式提取伪时间和分支(Haghverdi等人,2016(https://arxiv.org/html/2605.30635#bib.bib44);Street等人,2018(https://arxiv.org/html/2605.30635#bib.bib45))。这些基于局部性的方法假设快照内的邻近反映时间邻近性,这可能导致有偏的伪时间和虚假的谱系结构(Weiler等人,2022(https://arxiv.org/html/2605.30635#bib.bib33))。为了解决这些局限性,更近期的方法将对齐重新定义为寻找*分布*之间耦合的任务。 **具有生物学意义的代价函数**。分布对齐的一种流行方法是最优传输(OT)(Peyré和Cuturi,2019(https://arxiv.org/html/2605.30635#bib.bib5))。虽然OT使寻找耦合在计算上可行,但结果的生物学有效性完全取决于代价函数的选择。正如Bunne等人(2024(https://arxiv.org/html/2605.30635#bib.bib79))所指出的,通过这种代价函数纳入有意义的先验是单细胞和空间组学中的一个*核心瓶颈*。标准OT方法依赖于基因表达距离,实际上强制执行最小作用量原理,假设细胞在表达空间中沿着最短路径平滑演化。在这项工作中,我们提出一个问题:*我们能否为轨迹推断设计一个具有生物学意义的先验,该先验正交于基因表达中的最小作用量原理?* 我们从关键观察开始:仅使用特征的OT,完全依赖于基因表达距离,隐式地将细胞视为独立粒子。这丢弃了结构化的*细胞-细胞相互作用*(CCI),并忽略了轨迹由细胞间信号传导塑造的生物学现实。具体而言,由配体-受体(LR)对介导的有向CCI驱动发育和疾病(He和Xu,2020(https://arxiv.org/html/2605.30635#bib.bib98);Liu等人,2023(https://arxiv.org/html/2605.30635#bib.bib99))。我们假设这些相互作用的*关系结构*也可以随时间平滑演化,因此可以为对齐提供鲁棒信号。我们通过CellBRIDGE(基于细胞的规则化相互作用驱动基因表达)纳入这一先验。为了避免依赖空间数据,我们在每个快照内,通过在局部表达邻域上对有向LR对进行评分,构建*代理*通信网络。然后,我们将寻找耦合表述为一个*融合Gromov-Wasserstein*(FGW)问题。FGW同时最小化基因表达空间中的传输代价和这些推断通信网络的结构畸变。重要的是,我们基于相互作用的先验正交于标准先验(例如基因表达中的最小作用量或非平衡传输)。因此,这种模块化使得CellBRIDGE能够无缝集成到最先进的流场回归流程中(Lipman等人,2024(https://arxiv.org/html/2605.30635#bib.bib29);Kapusniak等人,2024(https://arxiv.org/html/2605.30635#bib.bib20);Tong等人,2024b(https://arxiv.org/html/2605.30635#bib.bib21))。在我们的合成和真实数据集实验中,我们证明CellBRIDGE带来了改进的轨迹推断,当与正交先验配对时,获得最佳结果。综上,我们的贡献如下: **贡献** * 代价函数视角。我们将OT代价设计视为快照对齐的关键设计选择,并提出有向、带类型细胞-细胞通信的平滑性作为一个有生物学基础且可解释的先验,它补充了基因表达的平滑性。 * 带类型、有向FGW。我们将FGW推广到从配体-受体信号导出的*多关系*(向量值)有向相互作用结构,从而产生快照之间的相互作用感知耦合。 * 广泛适用性。相互作用感知耦合改进了各种轨迹推断框架中的轨迹推断,表明CCI结构是一个与常规假设正交的通用先验。 * 经验和机制证据。我们在合成和真实scRNA-seq数据集上展示了性能改进,并展示了可解释的*计算机模拟*扰动:沉默特定LR对会诱导与靶向通路抑制一致的轨迹偏移。 ## 2 背景 **问题形式化:细胞轨迹推断**。我们考虑kk个群体快照\{Di\}i=1k\\\{\\mathcal\{D\}\_\{i\}\\\}\_\{i=1\}^\{k\},其中每个Di⊂Rd\\mathcal\{D\}\_\{i\}\\subset\\mathbb\{R\}^\{d\}是在时间tit\_\{i\}测量的一组单细胞状态。目标是学习一个时间连续的流ψ:Rd×R\+→Rd\\psi:\\mathbb\{R\}^\{d\}\\times\\mathbb\{R\}\_\{\+\}\\rightarrow\\mathbb\{R\}^\{d\},使得ψ\(x,t\)\\psi\(x,t\)返回将初始状态xx演化到时间tt所获得的状态。由于scRNA-seq是*破坏性*的,同一个细胞不能在两个时间点被观测,因此Di\\mathcal\{D\}\_\{i\}和Di\+1\\mathcal\{D\}\_\{i\+1\}中的细胞之间没有一一对应关系。需要重复观测同一对象的经典时间序列和ODE拟合方法因此不能直接适用;轨迹推断必须从*未对齐的快照*中恢复动态。 **快照的全局对齐**。不依赖于单个快照内的邻域推断轨迹(Haghverdi等人,2016(https://arxiv.org/html/2605.30635#bib.bib44)),近期工作从*群体水平*对齐*多个快照*(Schiebinger等人,2019(https://arxiv.org/html/2605.30635#bib.bib37)),将每个快照视为细胞状态上的概率分布。这种对齐本质上是不确定的:在没有额外结构的情况下,许多快照之间的匹配同样与观测到的边缘分布相容。 **快照的标准OT**。对于两个时间点t00α∗>0。 **表 2:连续时间动态的插值误差(越低越好)。我们报告5次运行的平均值±std。** V1 LightDendritic StimulusLung tumor 方法 α W1W\_1 W2W\_2 W1W\_1 W2W\_2 W1W\_1 W2W\_2 TrajectoryNet — 3.022(0.061)3.022\{\\scriptstyle\\,\(\\,0\.061\\,\)\} 3.338(0.056)3.338\{\\scriptstyle\\,\(\\,0\.056\\,\)\} 4.410(0.102)4.410\{\\scriptstyle\\,\(\\,0\.102\\,\)\} 4.607(0.107)4.607\{\\scriptstyle\\,\(\\,0\.107\\,\)\} 2.712(0.090)2.712\{\\scriptstyle\\,\(\\,0\.090\\,\)\} 3.056(0.099)3.056\{\\scriptstyle\\,\(\\,0\.099\\,\)\} DSB — 3.819(0.152)3.819\{\\scriptstyle\\,\(\\,0\.152\\,\)\} 3.875(0.143)3.875\{\\scriptstyle\\,\(\\,0\.143\\,\)\} 4.099(0.155)4.099\{\\scriptstyle\\,\(\\,0\.155\\,\)\} 4.249(0.153)4.249\{\\scriptstyle\\,\(\\,0\.153\\,\)\} 3.700(0.116)3.700\{\\scriptstyle\\,\(\\,0\.116\\,\)\} 3.967(0.102)3.967\{\\scriptstyle\\,\(\\,0\.102\\,\)\} VGFM — 6.446(0.114)6.446\{\\scriptstyle\\,\(\\,0\.114\\,\)\} 6.745(0.102)6.745\{\\scriptstyle\\,\(\\,0\.102\\,\)\} 7.087(0.022)7.087\{\\scriptstyle\\,\(\\,0\.022\\,\)\} 7.261(0.026)7.261\{\\scriptstyle\\,\(\\,0\.026\\,\)\} 2.175(0.017)2.175\{\\scriptstyle\\,\(\\,0\.017\\,\)\} 2.478(0.019)2.478\{\\scriptstyle\\,\(\\,0\.019\\,\)\} MIOFlow — 6.360(0.010)6.360\{\\scriptstyle\\,\(\\,0\.010\\,\)\} 6.655(0.009)6.655\{\\scriptstyle\\,\(\\,0\.009\\,\)\} 6.970(0.043)6.970\{\\scriptstyle\\,\(\\,0\.043\\,\)\} 7.159(0.034)7.159\{\\scriptstyle\\,\(\\,0\.034\\,\)\} 2.001(0.003)2.001\{\\scriptstyle\\,\(\\,0\.003\\,\)\} 2.316(0.009)2.316\{\\scriptstyle\\,\(\\,0\.009\\,\)\} SnapMMD — 2.420(0.005)2.420\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 2.657(0.005)2.657\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 3.863(0.036)3.863\{\\scriptstyle\\,\(\\,0\.036\\,\)\} 4.022(0.048)4.022\{\\scriptstyle\\,\(\\,0\.048\\,\)\} 2.237(0.143)2.237\{\\scriptstyle\\,\(\\,0\.143\\,\)\} 2.520(0.115)2.520\{\\scriptstyle\\,\(\\,0\.115\\,\)\} Moscot — 6.242(0.000)6.242\{\\scriptstyle\\,\(\\,0\.000\\,\)\} 6.545(0.000)6.545\{\\scriptstyle\\,\(\\,0\.000\\,\)\} 7.115(0.000)7.115\{\\scriptstyle\\,\(\\,0\.000\\,\)\} 7.331(0.000)7.331\{\\scriptstyle\\,\(\\,0\.000\\,\)\} 2.000(0.000)2.000\{\\scriptstyle\\,\(\\,0\.000\\,\)\} 2.335(0.000)2.335\{\\scriptstyle\\,\(\\,0\.000\\,\)\} OT-CFM — 2.392(0.005)2.392\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 2.625(0.007)2.625\{\\scriptstyle\\,\(\\,0\.007\\,\)\} 3.696(0.007)3.696\{\\scriptstyle\\,\(\\,0\.007\\,\)\} 3.857(0.009)3.857\{\\scriptstyle\\,\(\\,0\.009\\,\)\} 1.993(0.004)1.993\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.275(0.005)2.275\{\\scriptstyle\\,\(\\,0\.005\\,\)\} OT-MFM — 2.401(0.003)2.401\{\\scriptstyle\\,\(\\,0\.003\\,\)\} 2.636(0.003)2.636\{\\scriptstyle\\,\(\\,0\.003\\,\)\} 3.714(0.008)3.714\{\\scriptstyle\\,\(\\,0\.008\\,\)\} 3.880(0.009)3.880\{\\scriptstyle\\,\(\\,0\.009\\,\)\} 1.984(0.004)1.984\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.285(0.004)2.285\{\\scriptstyle\\,\(\\,0\.004\\,\)\} UOT-FM — 2.411(0.005)2.411\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 2.649(0.006)2.649\{\\scriptstyle\\,\(\\,0\.006\\,\)\} 3.701(0.006)3.701\{\\scriptstyle\\,\(\\,0\.006\\,\)\} 3.867(0.007)3.867\{\\scriptstyle\\,\(\\,0\.007\\,\)\} 1.998(0.004)1.998\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.348(0.004)2.348\{\\scriptstyle\\,\(\\,0\.004\\,\)\} SF2M — 3.254(0.192)3.254\{\\scriptstyle\\,\(\\,0\.192\\,\)\} 3.368(0.182)3.368\{\\scriptstyle\\,\(\\,0\.182\\,\)\} 4.333(0.279)4.333\{\\scriptstyle\\,\(\\,0\.279\\,\)\} 4.436(0.282)4.436\{\\scriptstyle\\,\(\\,0\.282\\,\)\} 3.826(0.265)3.826\{\\scriptstyle\\,\(\\,0\.265\\,\)\} 3.974(0.308)3.974\{\\scriptstyle\\,\(\\,0\.308\\,\)\} 0.5 3.199(0.117)3.199\{\\scriptstyle\\,\(\\,0\.117\\,\)\} 3.315(0.110)3.315\{\\scriptstyle\\,\(\\,0\.110\\,\)\} 4.303(0.213)4.303\{\\scriptstyle\\,\(\\,0\.213\\,\)\} 4.397(0.205)4.397\{\\scriptstyle\\,\(\\,0\.205\\,\)\} 3.809(0.302)3.809\{\\scriptstyle\\,\(\\,0\.302\\,\)\} 3.968(0.374)3.968\{\\scriptstyle\\,\(\\,0\.374\\,\)\} CellBRIDGE+SF2M 1 3.226(0.075)3.226\{\\scriptstyle\\,\(\\,0\.075\\,\)\} 3.339(0.073)3.339\{\\scriptstyle\\,\(\\,0\.073\\,\)\} 4.289(0.110)4.289\{\\scriptstyle\\,\(\\,0\.110\\,\)\} 4.387(0.108)4.387\{\\scriptstyle\\,\(\\,0\.108\\,\)\} 3.638(0.308)3.638\{\\scriptstyle\\,\(\\,0\.308\\,\)\} 3.739(0.335)3.739\{\\scriptstyle\\,\(\\,0\.335\\,\)\} 0.5 2.393(0.007)2.393\{\\scriptstyle\\,\(\\,0\.007\\,\)\} 2.631(0.008)2.631\{\\scriptstyle\\,\(\\,0\.008\\,\)\} 3.679(0.007)3.679\{\\scriptstyle\\,\(\\,0\.007\\,\)\} 3.838(0.009)3.838\{\\scriptstyle\\,\(\\,0\.009\\,\)\} 1.978(0.004)1.978\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.277(0.003)2.277\{\\scriptstyle\\,\(\\,0\.003\\,\)\} CellBRIDGE+MFM 1 2.363(0.002)2.363\{\\scriptstyle\\,\(\\,0\.002\\,\)\} 2.606(0.002)2.606\{\\scriptstyle\\,\(\\,0\.002\\,\)\} 3.668(0.010)3.668\{\\scriptstyle\\,\(\\,0\.010\\,\)\} 3.824(0.011)3.824\{\\scriptstyle\\,\(\\,0\.011\\,\)\} 2.013(0.003)2.013\{\\scriptstyle\\,\(\\,0\.003\\,\)\} 2.304(0.003)2.304\{\\scriptstyle\\,\(\\,0\.003\\,\)\} 0.5 2.377(0.004)2.377\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.619(0.005)2.619\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 3.688(0.012)3.688\{\\scriptstyle\\,\(\\,0\.012\\,\)\} 3.854(0.012)3.854\{\\scriptstyle\\,\(\\,0\.012\\,\)\} 1.971(0.005)1.971\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 2.322(0.005)2.322\{\\scriptstyle\\,\(\\,0\.005\\,\)\} CellBRIDGE+UOT-FM 1 2.360(0.002)2.360\{\\scriptstyle\\,\(\\,0\.002\\,\)\} 2.605(0.001)2.605\{\\scriptstyle\\,\(\\,0\.001\\,\)\} 3.624(0.004)3.624\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 3.780(0.002)3.780\{\\scriptstyle\\,\(\\,0\.002\\,\)\} 1.993(0.004)1.993\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.335(0.005)2.335\{\\scriptstyle\\,\(\\,0\.005\\,\)\} CellBRIDGE+CFM 0.5 2.381(0.004)2.381\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.618(0.003)2.618\{\\scriptstyle\\,\(\\,0\.003\\,\)\} 3.679(0.009)3.679\{\\scriptstyle\\,\(\\,0\.009\\,\)\} 3.835(0.010)3.835\{\\scriptstyle\\,\(\\,0\.010\\,\)\} 1.989(0.004)1.989\{\\scriptstyle\\,\(\\,0\.004\\,\)\} 2.272(0.005)2.272\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 1 2.362(0.003)2.362\{\\scriptstyle\\,\(\\,0\.003\\,\)\} 2.601(0.005)2.601\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 3.639(0.021)3.639\{\\scriptstyle\\,\(\\,0\.021\\,\)\} 3.788(0.021)3.788\{\\scriptstyle\\,\(\\,0\.021\\,\)\} 2.057(0.005)2.057\{\\scriptstyle\\,\(\\,0\.005\\,\)\} 2.329(0.005)2.329\{\\scriptstyle\\,\(\\,0\.005\\,\)\} **真实世界数据集**。我们在六个真实世界的scRNA-seq数据集上评估CellBRIDGE,这些数据集的特征...相似文章
解读细胞,设计疗法:基于扰动条件的分子扩散用于功能导向药物设计
本文正式将基于转录组的药物设计(TBDD)形式化为一个生成式逆问题,并提出了CURE——一个多分辨率转录组引导的扩散框架,能够生成以所需转录组状态转变为条件的药物分子。
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
CP-Agent: 面向化学扰动下细胞形态轮廓分析的情境感知多模态推理
CP-Agent 是一个多模态大语言模型,它利用情境感知对齐(CP-CLIP)来解释化学扰动下的细胞形态变化,从而为药物发现提供可解释且可扩展的表型筛选。
语言模型中基于单元的关系绑定表示
研究表明,大型语言模型通过“基于单元的绑定表示”(CBR)对篇章级关系绑定进行编码:一种低维线性子空间,每个“单元”对应实体-关系索引对,为模型如何追踪实体与关系提供了因果证据。
迈向通用基因调控网络推断:在单细胞基础模型中解锁可泛化的调控知识
本文提出了一种利用单细胞基础模型进行通用基因调控网络(GRN)推断的新范式,并引入了虚拟值扰动和梯度轨迹方法来提炼调控知识。