解读细胞,设计疗法:基于扰动条件的分子扩散用于功能导向药物设计
摘要
本文正式将基于转录组的药物设计(TBDD)形式化为一个生成式逆问题,并提出了CURE——一个多分辨率转录组引导的扩散框架,能够生成以所需转录组状态转变为条件的药物分子。
arXiv:2605.15243v1 Announce Type: new \n 摘要:当可靠的靶标结构无法大规模获取,或表型源于失调的通路时,转录组扰动能够提供药物作用的系统级功能读数。在本工作中,我们将\emph{基于转录组的药物设计(TBDD)}形式化为一个生成式逆问题:设计以所需转录组状态转变为条件的药物分子。我们分析了该任务固有的不适定性,这种不适定性因生物学与化学之间深刻的领域鸿沟以及转录组信号的稀疏性而进一步复杂化。为应对这些挑战,我们提出了\textbf{\themodel{}}(A \textbf{C}ell\textbf{U}lar \textbf{R}esponse \textbf{E}ngine),一个多分辨率转录组引导的扩散框架。\themodel{}配备了一个专门的\textbf{转录组扰动功能特征提取器(TFE)},它能够(1)从扰动前后状态中提取功能导向的扰动嵌入,(2)将这些特征与双重化学视图对齐以弥合跨模态差距,(3)执行异质性感知聚合以从嘈杂的转录组数据中提取稳健的状态特异性信号。在标准基准测试和严格的分布外协议上的广泛评估表明,\themodel{}在结构质量和功能一致性上始终优于强基线。此外,我们通过一个零样本基因抑制剂设计任务验证了其实用性,突显了表型驱动的生成式发现的潜力。
查看缓存全文
缓存时间: 2026/05/18 06:38
# 读取细胞,设计药物:面向功能的药物设计的扰动条件分子扩散
来源:https://arxiv.org/html/2605.15243
###### 摘要
当可靠的目标结构难以大规模获得,或表型源于失调的通路时,转录组扰动为药物作用提供了系统层面的功能解读。本文中,我们将*基于转录组的药物设计(TBDD)*形式化为一个生成式逆问题:设计以期望转录组状态转变为条件的药物分子。我们分析了该任务固有的病态性,这种病态性因生物学与化学之间深刻的领域鸿沟以及转录组信号的稀疏性而进一步复杂化。为应对这些挑战,我们提出CURE(一种细胞反应引擎),这是一个多分辨率转录组引导的扩散框架。CURE包含一个专门的转录组扰动功能特征提取器(TFE),它能够(1)从前后状态中提炼功能导向的扰动嵌入,(2)将这些特征与双化学视图对齐以弥合跨模态鸿沟,以及(3)执行异质性感知聚合,从嘈杂的转录组数据中提取鲁棒的、状态特定的信号。在标准基准和严格的分布外协议上的广泛评估表明,CURE在结构质量和功能一致性上持续优于强基线。此外,我们通过零样本基因抑制剂设计任务验证了其实用性,突显了表型驱动的生成发现的潜力。
转录组引导的药物设计,单细胞转录组学,分子生成,图扩散模型
参照图注
图1:不同评估指标上的性能概览。CURE在分布内和分布外设置下,在结构指标和功能一致性代理上均取得了优秀的整体性能。
参照图注
图2:TBDD及其与现有范式关系的示意图。TBDD是互补于*扰动预测*的*逆向*(设计)方向,也是SBDD的功能导向补充。
## 1 引言
药物发现仍然是一个成本高昂且容易失败的过程(Sadybekov and Katritch,2023(https://arxiv.org/html/2605.15243#bib.bib20))。虽然计算管线长期以来一直试图加速这一进程,但该领域主要被*基于结构的药物设计(SBDD)*所主导(Bai et al.,2024(https://arxiv.org/html/2605.15243#bib.bib36);Saini et al.,2025(https://arxiv.org/html/2605.15243#bib.bib21))。SBDD依赖于锁钥原理,利用三维(3D)蛋白质靶标结构来设计高亲和力配体。然而,这种简化范式面临固有的瓶颈:当靶标结构未知(例如,无序蛋白)或疾病表型源于失调的多通路网络而非单个可作用的靶标时,SBDD就会失效(Munson et al.,2024(https://arxiv.org/html/2605.15243#bib.bib48))。因此,迫切需要一种互补的、*功能导向*的设计范式,能够绕过明确的结构约束,直接针对细胞表型转变。
转录组扰动特征恰恰提供了这种功能蓝图。与静态结构数据不同,从扰动前状态到扰动后状态的转变(即Tpre→Tpost\mathbf{T}_{\mathrm{pre}}\to\mathbf{T}_{\mathrm{post}})捕捉了分子对细胞系统的全局功能影响(Bunne et al.,2024(https://arxiv.org/html/2605.15243#bib.bib25);Ji et al.,2021(https://arxiv.org/html/2605.15243#bib.bib8))。这个差异图谱整合了通路层面的相互作用和网络效应,有效编码了*分子的作用机制(MoA)*。尽管数据丰富,但现有的转录组学驱动的机器学习方法主要解决*正向*问题:*预测已知化合物的细胞反应*(Hsieh et al.,2023(https://arxiv.org/html/2605.15243#bib.bib43);Wei et al.,2022(https://arxiv.org/html/2605.15243#bib.bib45))。这种不对称性导致扰动数据的全部潜力未被充分利用。我们认为,要真正补充SBDD,必须反转这一工作流程:将表型特征用作*生成条件*,而不是预测目标,以指导设计能够诱导期望功能状态的分子(图2(https://arxiv.org/html/2605.15243#S0.F2))。
为此,我们专注于*基于转录组的药物设计(TBDD)*。尽管初步探索已涉及这一问题,但该领域缺乏严谨的问题定义和系统的评估框架。我们将TBDD形式化为一个逆问题:给定一个代表治疗目标的期望功能转变(Tpre,Tpost)(\mathbf{T}_{\mathrm{pre}},\mathbf{T}_{\mathrm{post}}),目标是学习一个关于药物分子的条件生成器p(G∣Tpre,Tpost)p(\mathbf{G}\mid\mathbf{T}_{\mathrm{pre}},\mathbf{T}_{\mathrm{post}})。这一设置(i)*正交于*SBDD,条件基于功能结果而非物理约束;并且(ii)是扰动预测的*逆过程*。关键在于,TBDD本质上是病态的:转录组编码功能效应而非唯一的原子蓝图,许多不同的结构可以产生相似的特征。我们以分布视角接受这一现实:不寻求唯一逆解,而是旨在采样多样的、*功能一致的候选分子*。
尽管前景广阔,三个挑战使TBDD在实践中难以实现。
(1)跨模态领域鸿沟:转录组谱和分子图在信息密度和归纳偏置上存在根本差异,使得简单的直接条件化不稳定(Xiao et al.,2024(https://arxiv.org/html/2605.15243#bib.bib46);Zhou et al.,2025(https://arxiv.org/html/2605.15243#bib.bib47))。
(2)稀疏、嘈杂的单细胞信号:单细胞RNA-seq能够获取异质性药物反应,但丢失、批次效应和高维噪声使得条件化脆弱。同时,与批量转录组学的兼容性对于利用大量高价值的遗留数据集至关重要(Hafemeister and Halbritter,2023(https://arxiv.org/html/2605.15243#bib.bib35);Van de Sande et al.,2023(https://arxiv.org/html/2605.15243#bib.bib42))。
(3)有限真值下的评估:大规模湿实验验证成本高昂,需要仔细的代理评估、强检索基线以及便于审计的分割协议,以减轻泄漏和记忆问题。
为应对这些挑战,我们提出CURE(用于基于转录组药物设计的细胞反应引擎),一个多分辨率转录组引导的de novo分子生成扩散框架。CURE引入了一个转录组扰动功能特征提取器(TFE),它能够(i)通过双向转录组扰动信号交互模块(TFE-I)提炼出一个功能导向的扰动嵌入,并通过双视图分子域对齐模块(TFE-A)将其映射到*双视图对齐的化学域*(图拓扑和指纹视图)中;以及(ii)利用异质性感知转录组聚合模块(TFE-H)处理稀疏的scRNA-seq数据,以抑制技术噪声同时保留亚群变异。最后,CURE使用图扩散Transformer作为生成骨干,通过自适应层归一化(AdaLN)以提取的扰动表示为条件,迭代重建分子图。在多个数据集和评估维度(分布质量、结构合理性/多样性,以及由独立扰动估计器评估的功能一致性代理)上,CURE持续优于强基线(图1(https://arxiv.org/html/2605.15243#S0.F1))。我们进一步展示了零样本基因抑制剂设计场景,说明了转录组引导生成的实用价值。
我们的贡献如下:
- • 我们**形式化**了TBDD任务,并对其独特挑战进行了**系统分析**。
- • 我们提出了**CURE**,一个多分辨率扩散框架,通过将功能信号与化学域对齐并抑制稀疏转录组数据中的噪声,实现了鲁棒的条件化。
- • 我们设计了**综合评估套件**,包含了严格的分布外和零样本协议,证明了CURE在结构和功能指标上均持续优于基线。
#### 利益冲突声明。作者声明与本文所呈现的工作无任何财务利益冲突。
## 2 相关工作
基于机器学习的分子设计。深度分子设计已从SMILES序列模型发展到保留分子拓扑的图基方法(Wang et al.,2025(https://arxiv.org/html/2605.15243#bib.bib14);Gómez-Bombarelli et al.,2018(https://arxiv.org/html/2605.15243#bib.bib49);Hu et al.,2025(https://arxiv.org/html/2605.15243#bib.bib57))。诸如(Jin et al.,2020(https://arxiv.org/html/2605.15243#bib.bib2);You et al.,2024(https://arxiv.org/html/2605.15243#bib.bib28);Weller and Rohs,2024(https://arxiv.org/html/2605.15243#bib.bib40))中的层次化生成器以粗到细的方式高效构建大分子。然而,对于药物设计目标而言,无条件生成缺乏聚焦。Transformer基图扩散模型(Liu et al.,2024(https://arxiv.org/html/2605.15243#bib.bib1);Peng et al.,2023(https://arxiv.org/html/2605.15243#bib.bib15);Hoogeboom et al.,2022(https://arxiv.org/html/2605.15243#bib.bib16);Schneuing et al.,2024(https://arxiv.org/html/2605.15243#bib.bib26))通过AdaLN等机制实现多条件生成以注入外部信号。*基于结构的药物设计(SBDD)*依然是一个经典的条件范 paradigm,使用3D口袋结构指导配体生成(Alakhdar et al.,2024(https://arxiv.org/html/2605.15243#bib.bib38);Guan et al.,2024(https://arxiv.org/html/2605.15243#bib.bib39)),但其单一靶标视角限制了在多通路疾病上的性能,并且依赖于高质量的蛋白质结构(Isert et al.,2023(https://arxiv.org/html/2605.15243#bib.bib22);Wang et al.,2018(https://arxiv.org/html/2605.15243#bib.bib23);Fahim,2025(https://arxiv.org/html/2605.15243#bib.bib24))。
细胞扰动转录组学。转录组学提供了细胞功能的全面快照。大型扰动资源,如(Subramanian et al.,2017(https://arxiv.org/html/2605.15243#bib.bib3);Gao et al.,2019(https://arxiv.org/html/2605.15243#bib.bib29);Zhang et al.,2025(https://arxiv.org/html/2605.15243#bib.bib4)),提供了化学或遗传扰动下的大规模基因表达谱。在此基础上,预测模型(Qi et al.,2024(https://arxiv.org/html/2605.15243#bib.bib5);Hetzel et al.,2022(https://arxiv.org/html/2605.15243#bib.bib6);Lotfollahi et al.,2019(https://arxiv.org/html/2605.15243#bib.bib7);Roohani et al.,2024(https://arxiv.org/html/2605.15243#bib.bib9))整合化学信息和基线状态来预测单细胞或批量响应,而(Adduri et al.,2025(https://arxiv.org/html/2605.15243#bib.bib13))等框架则针对异质性和批次效应。尽管对于模拟响应很有用,但这些模型是预测性的而非生成性的。新兴的*转录组引导生成*方法(Li and Yamanishi,2025(https://arxiv.org/html/2605.15243#bib.bib53);Kaitoh and Yamanishi,2021(https://arxiv.org/html/2605.15243#bib.bib11);Cheng et al.,2024(https://arxiv.org/html/2605.15243#bib.bib12))依赖于可能丢失信息的显式统计量,并且仍然面临将宏观信号映射到完整结构的病态性问题。这些问题凸显了对功能中心条件化和架构分解的需求,而这也是我们在CURE中所追求的。
## 3 设置与问题形式化
我们考虑三个空间。化学空间G\mathcal{G}包含以属性图G=(V,E)\mathbf{G}=(\mathcal{V},\mathcal{E})表示的分子。转录组空间T⊂Rd\mathcal{T}\subset\mathbb{R}^d包含基因表达状态T∈Rd\mathbf{T}\in\mathbb{R}^d,其中dd是测量的基因数(批量)或一个协调后的特征维度(单细胞)。一个扰动特征可以指定为(Tpre,Tpost)∈T×T(\mathbf{T}_{\mathrm{pre}},\mathbf{T}_{\mathrm{post}})\in\mathcal{T}\times\mathcal{T}或一个派生表示z=g(Tpre,Tpost)\mathbf{z}=g(\mathbf{T}_{\mathrm{pre}},\mathbf{T}_{\mathrm{post}})(例如,log-fold变化或学习到的嵌入)。给定可选的细胞上下文cc(细胞类型、状态、批次等),TBDD的目标是学习一个关于分子的条件分布
p(G∣z,c)=p(G∣Tpre,Tpost,c),p(\mathbf{G}\mid\mathbf{z},c)=p(\mathbf{G}\mid\mathbf{T}_{\mathrm{pre}},\mathbf{T}_{\mathrm{post}},c), (1)
从中我们可以采样候选分子,其诱导的细胞响应在功能上与目标特征一致。
## 4 多分辨率转录组引导扩散模型
### 4.1 模型架构
参照图注
图3:CURE的整体架构。该模型包含一个转录组扰动功能特征提取器(TFE),处理转录组表达数据(Tpre,Tpost)(\mathbf{T}_{\mathrm{pre}},\mathbf{T}_{\mathrm{post}})以生成条件嵌入(C)(\mathbf{C}),以及一个扰动特征引导的分子图扩散模型(PMD),利用该条件生成目标分子。
我们提出的CURE方法构建了一个基于转录组扰动信号的图扩散模型,用于受控的分子生成。该模型包含两个主要部分:一个**转录组扰动功能特征提取器(TFE)**和一个**扰动特征引导的分子图扩散模型(PMD)**。TFE融合扰动前后的转录组信息,并将其与药物分子特征空间对齐。PMD通过将扰动信号注入条件扩散过程来指导药物分子生成。CURE是第一个整合多分辨率细胞扰动数据同时保留异质性信息的药物分子生成方法。此外,生成的分子可直接用于各种下游任务,例如基因抑制剂发现(图3(https://arxiv.org/html/2605.15243#S4.F3))。
### 4.2 扰动特征引导的分子图扩散模型
我们使用了一个由TFE产生的扰动表示引导的条件分子生成扩散模型。核心架构基于扩散Transformer(Peebles and Xie,2023(https://arxiv.org/html/2605.15243#bib.bib17)),其中条件表示被注入以指导去噪过程。
分子图扩散模型。图扩散模型使用一个马尔可夫链驱动的正向过程,逐步向分子图的离散特征(原子和键类型)添加噪声:
q(XGt∣XGt−1)=Cat(XGt;p~=XGt−1QGt),q\left(X_{G}^{t}\mid X_{G}^{t-1}\right)=\operatorname{Cat}\left(X_{G}^{t};\tilde{p}=X_{G}^{t-1}\mathbf{Q}_{G}^{t}\right), (2)
其中XX是表示图GG的矩阵,Q\mathbf{Q}是图转移矩阵。一个神经网络参数化的逆向过程可以通过迭相似文章
TD3B:用于别构结合物生成的过渡导向离散扩散
TD3B 是一种基于序列的生成框架,利用过渡导向离散扩散设计具有特定激动剂或拮抗剂行为的别构结合物。该论文引入了一种控制蛋白质状态方向性转变的方法,解决了基于静态结构的设计方法的局限性。
通过分类器引导的胚系吸收离散扩散实现抗体序列的条件生成
本文介绍了一种具有新颖“胚系吸收”特性的离散扩散模型,以改善抗体序列的条件生成。该模型解决了蛋白质语言模型中的胚系偏差问题,并在优化抗体结合亲和力和可开发性方面表现出优于现有方法(如 EvoProtGrad)的性能。
CellBRIDGE: 通过交互感知对齐学习细胞轨迹
CellBRIDGE是一种新方法,通过引入配体-受体相互作用成本来模拟细胞间通讯,增强了对scRNA-seq轨迹推断的最优传输,改进了对齐并实现了可解释的计算机模拟扰动。
从全息口袋到电子密度:基于密度的GPT式药物设计
本文介绍了EDMolGPT,这是一种自回归框架,能够从低分辨率电子密度点云生成3D分子构象,通过利用具有物理意义的密度信号来改进基于结构的药物设计。
ToolMol:用于多目标药物发现的进化式智能体框架
ToolMol是一个进化式智能体框架,结合了多目标遗传算法和基于LLM的操作符,用于设计小分子药物,在多个蛋白质靶点上实现了最先进的结合亲和力和类药性。