暗调控组:从基因组基础模型中分离可预测性与调控性
摘要
本文介绍了一种残差化与置换诊断方法,用于从基因组基础模型的调控重要性分数中分离由可预测性驱动和由调控驱动的方差,并应用于胶质瘤相关位点的暗基因组元件。
查看缓存全文
缓存时间: 2026/06/08 09:20
# 暗调控组:从基因组基础模型的预测性与调控性中解耦可预测性
来源:https://arxiv.org/html/2606.06834
Chahat Baranwal
IIT Jodhpur
b22bb014@iitj\.ac\.in
&Aaditya Baranwal
University of Central Florida
aaditya\.baranwal@ucf\.edu
&Lakshya Nitin Tandon
Northeastern University
lakshya\.tandon@neu\.edu
###### 摘要
高级别胶质瘤通过与神经元形成功能性突触整合到神经回路中,这引出了一个问题:哪些非编码元件塑造了肿瘤细胞中突触形成基因的表达?写在暗基因组上的调控程序,我们称之为*暗调控组*,是自然的研究对象,而序列基础模型通过计算机模拟诱变(ISM)提供了一条零样本路径;然而,基于似然的评分在逻辑上与局部序列可预测性耦合,导致调控解释不充分。在三个架构不同的基础模型(Caduceus-Ph、HyenaDNA、Enformer)和92个胶质瘤相关基因座的30,448个暗基因组元件上,我们引入了一个残差化与置换诊断方法,该诊断将RIS方差中由可预测性驱动的部分与由调控性驱动的部分分开。一个尖锐的10 kb近端调控边界在我们应用的所有控制条件下都成立,但语言模型导出的元件类别层级却不成立:一个六特征线性基线以AUC=0.985与Caduceus的top-10%成员匹配。跨架构分解清晰地将一个序列可预测性层(两个语言模型共同对长的、良好预测的转座元件进行排序)与一个调控输出层(只有Enformer在控制可预测性后保留了区分cCRE的信号)分开,两个top-100列表之间的重叠严格为零。随后,保守性、脑顺式eQTL和STRING-PPI交叉验证确定了哪些生物学信号是可靠的:三个模型各自的top-100元素在匹配脑eQTL方面富集了3.3倍(p_emp<5×10^{-3}),而一个诱人的转座元件调控层和一个惊人的NRXN1+NLGN1蛋白对汇聚在适当的置换检验下均不成立。我们将该诊断作为任何基于ISM的调控研究的通用方法工具。
## 1 引言
高级别胶质瘤不仅仅是增殖细胞的团块。它们是神经回路的电整合成员(Venkatesh等人,2019 (https://arxiv.org/html/2606.06834#bib.bib1);Venkataramani等人,2019 (https://arxiv.org/html/2606.06834#bib.bib2)),与皮层神经元形成功能性谷氨酸能突触,接收兴奋性输入,并通过肿瘤微管传播钙波,形成一个正反馈环路,其中神经活动加速肿瘤生长(图LABEL:fig:synapse_schematic)(Venkatesh等人,2017 (https://arxiv.org/html/2606.06834#bib.bib4);Osswald等人,2015 (https://arxiv.org/html/2606.06834#bib.bib5);Taylor等人,2023 (https://arxiv.org/html/2606.06834#bib.bib11))。支撑这种劫持机制的蛋白质机器已得到较充分表征(Venkatesh等人,2015 (https://arxiv.org/html/2606.06834#bib.bib3);Krishna等人,2023 (https://arxiv.org/html/2606.06834#bib.bib6)),但上游问题仍然悬而未决:是什么调控程序在肿瘤细胞中激活了这种突触形成基因表达,哪些非编码元件构成了其基质?一个自然的探索方向是暗基因组——约98%的非蛋白质编码序列,包含转座元件、G-四链体基序、增强子和染色质绝缘子——而编码在其上的调控程序,即*暗调控组*,构成了一个创新储备库(Adami等人,2025 (https://arxiv.org/html/2606.06834#bib.bib23);Chakraborty等人,2023 (https://arxiv.org/html/2606.06834#bib.bib19);Feng和Yang,2025 (https://arxiv.org/html/2606.06834#bib.bib8))。然而,在单个基因座对成百上千个候选元件进行实验解剖是难以处理的,该领域一直缺乏一个原则性的、可扩展的读出方法。即使在每个基因座数百到数千个元件的规模上,如果没有计算优先排序,详尽的实验探索仍不切实际。
序列基础模型提供了一个诱人的零样本解决方案。直接从DNA序列学习调控语法架构使得计算机模拟诱变(ISM)成为可能:屏蔽一个候选元件,对模型在目标TSS处的预测进行评分,并按由此产生的*调控影响分数*(RIS)对元件排序(Kelley等人,2018 (https://arxiv.org/html/2606.06834#bib.bib44);Avsec等人,2021 (https://arxiv.org/html/2606.06834#bib.bib42))。我们实例化了三个架构不同的模型:双向Mamba掩码语言模型Caduceus-Ph(Schiff等人,2024 (https://arxiv.org/html/2606.06834#bib.bib40))、因果Hyena模型HyenaDNA(Nguyen等人,2023 (https://arxiv.org/html/2606.06834#bib.bib43))和监督卷积-Transformer模型Enformer(Avsec等人,2021 (https://arxiv.org/html/2606.06834#bib.bib42)),它们分别覆盖了无监督-掩码、无监督-因果和监督回归训练目标。隐含的承诺是三角验证:在所有三种架构中都存续的信号应反映真实的调控组织,而非任何单一目标的伪影。
这个承诺有一个隐藏的代价。在掩码或因果语言模型中,基于似然的RIS在结构上必然与局部序列似然耦合,因为移除任何与其邻域具有高互信息的序列(包括模型在预训练中有效记忆的重复元件)都会降低区域似然,无论该元件是否具有调控功能。跨架构的一致性本身并不能将这一可预测性层与真正的调控层分开。如果没有一个能明确分解这两者的诊断方法,基于ISM的调控研究会将其排名偶然呈现的任何东西当作证据,而报告的“汇聚”可能只是大n带来的统计伪影,而非生物学信号。
我们的贡献有三点。首先,我们引入了一个*残差化与置换诊断方法*,该方法接受任何ISM排名,将可归因于四个混杂协变量(k-mer熵、GC含量、元件长度对数、距TSS距离对数)的方差与存续的方差分开,然后在每个基因上使用保留边缘的置换零分布评估每一个报告的重叠或top-K一致性。其次,我们将该诊断应用于三个基础模型在92个胶质瘤相关基因座上的30,448个暗基因组元件,得到了一个清晰的跨架构分解:两个语言模型共享一个序列可预测性层,共同对长的、良好预测的转座元件进行排序;而只有Enformer在控制可预测性后保留了区分cCRE的信号;这两个层的top-100重叠严格为零。第三,我们识别出存续的生物学特征:一个尖锐的10 kb近端调控边界,该边界在架构、评分窗口、扰动方案和残差化条件下均成立,此外每个模型top-100元件中匹配脑顺式eQTL的富集度为3.3倍,这提供了一小组值得实验追踪的突触形成基因座候选者。同样的诊断方法也否定了本工作最初框架中的几个显著模式,包括一个声称的TE介导调控层和一个NRXN1+NLGN1蛋白对汇聚,两者在适当的置换检验下均不成立。
## 2 背景与相关工作
### 胶质瘤作为一种回路疾病与暗调控组
胶质母细胞瘤仍然几乎总是致命的,中位生存期不到十五个月。发现胶质瘤与皮层神经元形成功能性谷氨酸能突触(Venkatesh等人,2019 (https://arxiv.org/html/2606.06834#bib.bib1);Venkataramani等人,2019 (https://arxiv.org/html/2606.06834#bib.bib2))已将这种疾病重新定义为活动依赖性:神经元放电触发NLGN3释放、PI3K-mTOR和MAPK激活(Venkatesh等人,2015 (https://arxiv.org/html/2606.06834#bib.bib3))以及类LTP的BDNF-TrkB-CaMKII可塑性(Taylor等人,2023 (https://arxiv.org/html/2606.06834#bib.bib11));皮层回路重塑程度反向预测生存率(Krishna等人,2023 (https://arxiv.org/html/2606.06834#bib.bib6)),而过量的谷氨酸加上紊乱的氯离子稳态形成了一个加速肿瘤生长的HEx环路(Zhang等人,2025 (https://arxiv.org/html/2606.06834#bib.bib7);Picart和Hervey-Jumper,2024 (https://arxiv.org/html/2606.06834#bib.bib12))。尽管在定义编码机制方面取得了进展,但暗调控组中实现这种突触形成程序的上游架构在很大程度上仍未得到大规模表征。
参见图注
图1:暗基因组的四个调控层汇聚于胶质瘤回路表型。L1:BRD4锚定的超级增强子枢纽。L2:lncRNA-miRNA-circRNA网络(miR-128/NRXN1轴)。L3:黏连蛋白介导的3D染色体重连和ecDNA扩增。L4:结构依赖的G-四链体和Z-DNA调控。
暗基因组提供了一个合理的基质(图1 (https://arxiv.org/html/2606.06834#S2.F1)):转座元件形成了有文献记载的调控储备库,LINEs介导神经细胞中顺式作用的转录调控(Adami等人,2025 (https://arxiv.org/html/2606.06834#bib.bib23)),ERV衍生的LTRs作为组织特异性启动子发挥作用(Thompson等人,2016 (https://arxiv.org/html/2606.06834#bib.bib17)),TE亚家族在癌症中被招募为组织特异性增强子(Karttunen等人,2023 (https://arxiv.org/html/2606.06834#bib.bib20));胶质母细胞瘤增强子中的体细胞非编码突变触发突触形成级联反应(Iñiguez-Muñoz等人,2025 (https://arxiv.org/html/2606.06834#bib.bib33)),3D染色质重组激活回路基因模块(Feng和Yang,2025 (https://arxiv.org/html/2606.06834#bib.bib8))。ENCODE cCREs(启动子、增强子、CTCF绝缘子)提供了正交的调控注释(ENCODE Project Consortium,2020 (https://arxiv.org/html/2606.06834#bib.bib37))。
表1:跨越30,448个暗基因组元件的层级RIS汇总统计。
### 基因组基础模型、ISM与可预测性混杂
我们使用三个覆盖训练目标空间的基础模型。Caduceus-Ph(Schiff等人,2024 (https://arxiv.org/html/2606.06834#bib.bib40))是一个双向Mamba掩码语言模型,具有131 kb上下文和反向互补等变性。HyenaDNA(Nguyen等人,2023 (https://arxiv.org/html/2606.06834#bib.bib43))是一个因果Hyena语言模型,具有160 kb上下文和单核苷酸分辨率。Enformer(Avsec等人,2021 (https://arxiv.org/html/2606.06834#bib.bib42))是一个监督卷积-Transformer(196 kb),以128 bp分辨率预测5,313个表观基因组轨迹。ISM已应用于调控变异评分(Kelley等人,2018 (https://arxiv.org/html/2606.06834#bib.bib44))和增强子语法(Avsec等人,2021 (https://arxiv.org/html/2606.06834#bib.bib42)),而Integrated Gradients(Sundararajan等人,2017 (https://arxiv.org/html/2606.06834#bib.bib46))为所得排名提供了一个基于梯度的无扰动交叉验证。我们的工作所解决的方理论空白是将“模型对这个元件敏感”隐式等同于“这个元件是调控性的”:对于基于似然的评分,移除任何与其周围序列具有高互信息的元件都会降低区域似然,无论该元件是否带有调控功能,因此所得排名可能被序列可预测性而非调控性主导。
## 3 方法
### 基因面板与暗基因组注释
我们从三个功能层级中精选了92个人类基因,旨在从一般性脑表达中分离出回路特异的调控效应。第1层(突触形成回路,32个基因)包含在胶质瘤-神经元突触形成中具有既定作用的基因;第2层(增殖性,30个基因)收集了没有突触作用的经典胶质瘤驱动因子;第3层(脑对照,30个基因)涵盖在脑中表达但未涉及胶质瘤的基因。对于每个基因,我们从GENCODE v44(GRCh38/hg38)提取了规范TSS,并定义了一个模型上下文匹配的窗口W_g = [TSS_g - L/2, TSS_g + L/2](Caduceus-Ph为L=131 kb,HyenaDNA为160 kb,Enformer为196 kb)。每个窗口用三个正交轨迹注释:来自UCSC RepeatMasker的转座元件(≥10 bp的LINE/SINE/LTR/DNA转座子元素共19,947个),通过规范G4正则表达式且G4Hunter得分≥1.2得到的G-四链体基序(3,213个基序),以及ENCODE SCREEN cCRE v3(7,288个元素,分类为PLS、pELS、dELS、CTCF结合或DNase-H3K4me3)。合并后的*ISM清单*包含N=30,448个跨越92个窗口的元素(平均每个基因331个;附录表2 (https://arxiv.org/html/2606.06834#Ax1.T2))。
参见图注
图2:残差化与置换诊断方法示意图。来自92个基因座的暗基因组元素通过三个架构不同的基础模型(Schiff等人,2024 (https://arxiv.org/html/2606.06834#bib.bib40);Nguyen等人,2023 (https://arxiv.org/html/2606.06834#bib.bib43);Avsec等人,2021 (https://arxiv.org/html/2606.06834#bib.bib42))进行计算机模拟诱变处理。调控影响分数被残差化,并在置换零分布下进行评估,以从序列可预测性混杂因素中分离出调控驱动的方差。存续信号使用保守性、脑eQTL和蛋白质相互作用数据集进行交叉验证。
### 计算机模拟诱变与调控影响分数
我们在一张NVIDIA A6000 48 GB GPU上以float16加载了Caduceus-Ph(kuleshov-group/caduceus-ph_seqlen-131k_d_model-256_n_layer-16,7.7M参数,L=131,072 bp)。作为一个双向掩码语言模型,Caduceus-Ph估计每个位置的分布P_θ(x_i | x_{\i}),由此我们计算每个位置的对数似然l(i; x) = log P_θ(x_i | x_{\i})以及TSS近端平均
l̄(x) = (1/|R|) ∑_{i∈R} l(i; x), R = {i: |i - i_TSS| ≤ W}, W = 10,000 bp,
这使得指标聚焦于启动子近端调控邻域;W=10 kb是默认值,§4中我们将扫描W∈{5, 10, 20, 50, full} kb。对于每个注释到的元素e_k跨区间[s_k, t_k),我们通过用N个令牌替换该元素来构建突变序列,x_i^{(k)} = {N if s_k ≤ i < t_k, else x_i},重新计算TSS近端平均l̄^{(k)},并定义调控影响分数
RIS(e_k) = l̄^{(k)} - l̄(wild-type).
对于HyenaDNA,一个因果语言模型,perplexity是自然替代品:p(x) = exp(-(1/N) ∑_{i=1}^N log P_θ(x_i | x_{<i})),我们采用对称的delta perplexity:RIS(e_k) = (p^{(k)} - p) / p,以使正值表示破坏性扰动。对于Enformer,一个监督回归模型,我们使用(a)从5,313个轨迹中提取的预测转录活性中的delta,以及(b)目标基因的GTEx组织表达中的delta。
### 残差化与置换诊断
设对于基因g的M_g个元素的原始RIS分数为{r_{g1}, ..., r_{g,M_g}}。对于每个元素,我们收集四个协变量:x_1 = 3-mer熵(来自150 bp窗口),x_2 = GC含量(150 bp窗口),x_3 = log 10(元素长度),x_4 = log 10(距TSS距离)。我们拟合基因内线性模型r_{g,m} = β_0^{(g)} + ∑_{j=1}^4 β_j^{(g)} x_{j,g,m} + ε_{g,m},并提取残差ε_{g,m}作为*残差化RIS*。所有后续分析使用这些残差化分数。
### 交叉验证:保守性、脑eQTL和STRING-PPI
我们从UCSC phyloP(100种脊椎动物,hg38)提取保守性得分。脑顺式eQTL数据来自GTEx v8(组织:脑-皮层,FDR < 0.05)。蛋白质-蛋白质相互作用数据来自STRING v12。为生成置换分布,我们在基因层次对RIS分数进行置换,保留每个基因内观察到的元素数量(即,我们随机打乱基因之间而非基因内部的标签),计算重采样下的富集度,并报告经验p值p_emp。
## 4 结果
### 暗基因组范围内ISM排名
按照§3中的方法,我们计算了三个基础模型对所有30,448个暗基因组元素的RIS (图3)。跨模型的相关性微弱:Caduceus-Hyena的Spearman ρ=0.19, Caduceus-Enformer ρ=0.08, Hyena-Enformer ρ=0.04。大多数(|RIS|)较小:约80%的元素|RIS|≤0.01, 11–14%承载|RIS|>0.1;表1 (https://arxiv.org/html/2606.06834#S2.T1) 图4 (https://arxiv.org/html/2606.06834#S4.F4)。跨基因的分层自助法显示三个层级的均值在统计上不可区分(第1层 -0.036, 95% CI [-0.040, -0.032];第2层 -0.038 [-0.041, -0.035];第3层 -0.031 [-0.035, -0.027];Kruskal-Wallis H=4.50, p=0.105 经Benjamini-Hochberg校正),因此回路与增殖性差异需要更精细的分层。第一个出现的尖锐模式相当几何化……相似文章
迈向通用基因调控网络推断:在单细胞基础模型中解锁可泛化的调控知识
本文提出了一种利用单细胞基础模型进行通用基因调控网络(GRN)推断的新范式,并引入了虚拟值扰动和梯度轨迹方法来提炼调控知识。
立场:基因组模型研究必须超越对可解释性方法的偶发性评估
本文立场认为,基因组模型的可解释性研究必须超越偶发性评估,提出一个分层框架以严格评估一致性、忠实性和生物学有效性,并通过一个关于转录因子结合的基准研究进行论证。
揭示SciML中的多模态模式:不同的失败模式与模态特定优化
本文识别了科学机器学习模型中一致的三模态结构,表明优化效果是模态特定的,并可能挑战传统的损失景观解释。它提出了一个模态感知的诊断框架,并在PINN、神经算子以及神经ODE上得到验证。
GENEB:为何基因组模型难以相互比较
GENEB 是一个大规模诊断基准,在统一的探测协议下,跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性,以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题,类似于 MTEB 在 NLP 领域所做的工作。
单细胞CRISPR扰动的几何一致性揭示调控架构并预测细胞应激
# 论文页面 - 单细胞CRISPR扰动的几何一致性揭示调控架构并预测细胞应激 来源:[https://huggingface.co/papers/2604.16642](https://huggingface.co/papers/2604.16642) ## 摘要 尽管基因组工程在序列层面已达成卓越精度,预测扰动后细胞将占据的转录组状态仍是未解难题。单细胞CRISPR筛选可测量细胞偏离未扰动状态的程度,但这一效应幅度忽略了一个根本问题:细胞是否协同移动?若一个扰动将细胞沿共同轨迹一致推进,而另一个将其分散到表达空间各处,即使幅度相同,结果也可能截然不同。