AttnGen:面向可解释基因组序列分类的注意力引导显著特征学习
摘要
AttnGen是一个注意力引导的训练框架,它将可解释性嵌入到用于基因组序列分类的深度神经网络优化中,实现了更高的准确率,并鼓励模型关注信息性核苷酸位置。
arXiv:2605.14073v1 公告类型:新
摘要:深度神经网络在基因组序列分类中取得了优异性能;然而,将其预测与具有生物学意义的序列模式关联起来仍然具有挑战性。在本文中,我们提出了AttnGen,这是一个注意力引导的训练框架,将可解释性直接嵌入到优化过程中。AttnGen使用注意力机制计算核苷酸级别的重要性分数,并在训练过程中逐步抑制低贡献位置。这鼓励模型将其预测集中在紧凑的信息区域上,同时减少对噪声序列元素的依赖。我们在标准化的demo_human_or_worm基准上评估了AttnGen,这是一个针对200核苷酸序列的二分类任务。在适度掩蔽下,AttnGen实现了96.73%的验证准确率,优于传统CNN基线的95.83%准确率,同时表现出更快的收敛速度和更好的训练稳定性。为了评估学习到的重要性分数是否反映了功能相关的信号,我们通过去除高显著性核苷酸进行了基于扰动的分析。这导致在3000序列评估集上准确率从96.9%下降到接近随机水平,表明模型依赖于一个相对较小的信息位置子集。我们的分析表明,掩蔽10-20%的位置在预测性能和可解释性之间提供了最有利的权衡。这些结果表明,注意力引导的掩蔽不仅提高了分类性能,还重塑了模型在序列位置上分布重要性的方式。虽然本研究侧重于短基因组序列,但所提出的方法可能扩展到更复杂的可解释序列建模场景中。
查看缓存全文
缓存时间: 2026/05/15 06:26
# AttnGen:面向可解释基因组序列分类的注意力引导显著性学习
来源:https://arxiv.org/html/2605.14073
###### 摘要
深度神经网络在基因组序列分析中取得了显著性能,但其预测结果与生物学意义模式之间的关联仍是一个未解之谜。本文提出AttnGen,一种将可解释性直接嵌入优化过程的注意力引导训练框架。AttnGen通过特定注意力机制计算核苷酸级别的显著性,并在训练过程中利用这些分数逐步抑制低贡献位置。这促使模型将其预测集中在少量信息丰富区域,并避免将重要性分散到噪声序列元素上。我们在标准化的demo\_human\_or\_worm基准测试上评估AttnGen,该测试包含200核苷酸序列的二分类任务。通过适度的掩码,AttnGen达到96.73%的验证准确率,优于传统CNN基线(95.83%),同时表现出更快的收敛速度和更好的训练稳定性。为了检验学习到的显著性分数是否反映功能相关信号,我们通过去除高显著性核苷酸进行基于扰动的分析。结果在包含3,000条序列的评估集上,准确率从96.9%大幅下降至接近随机水平——这表明预测依赖于相对较小的位置子集。
我们的分析表明,掩码10–20%的位置可在预测性能与可解释性之间取得最佳权衡。这些结果表明,注意力引导的掩码不仅能提升分类性能,还能重塑模型在序列位置上分配重要性的方式。尽管本研究针对短基因组序列,但所提出的方法可将可解释训练策略扩展到更复杂的序列建模场景。
## I. 引言
在基因组序列建模中,仅凭预测准确率通常是不够的。模型输出常用于指导下游生物学解释,例如识别调控基序或优先考虑候选区域进行实验验证。表现良好但无法揭示其决策过程的模型难以获得信任。早期方法如位置权重矩阵(PWM)和基于k-mer的模型提供了一种结构化方式来表示局部序列偏好[1 (https://arxiv.org/html/2605.14073#bib.bib1)]。然而,这些方法假设有限的交互结构,当调控信号依赖于更广的上下文或长程依赖时,它们便难以应对。深度学习模型通过直接从原始序列数据中学习表示,部分解决了这一限制。特别是卷积神经网络(CNN),在转录因子结合预测和增强子检测等任务中展现出强大性能[2 (https://arxiv.org/html/2605.14073#bib.bib2),3 (https://arxiv.org/html/2605.14073#bib.bib3)]。在某些情况下,这些模型无需显式监督就能重新发现已知的生物学基序,表明它们捕捉到了数据中的有意义结构。近期自监督学习的研究探索了基于对齐的目标函数,以提高表示质量而不需要大规模标注数据集。特别是,对齐学习已被应用于医学图像分割,用于强制执行不同视图间的一致性并学习稳定的特征对应关系[4 (https://arxiv.org/html/2605.14073#bib.bib4)]。这一视角与基因组序列建模相关,因为只有部分位置对预测有贡献。
事后解释方法试图弥合这一差距。显著性图[5 (https://arxiv.org/html/2605.14073#bib.bib5)]、积分梯度[6 (https://arxiv.org/html/2605.14073#bib.bib6)]、DeepLIFT[7 (https://arxiv.org/html/2605.14073#bib.bib7)]以及基于注意力的方法[8 (https://arxiv.org/html/2605.14073#bib.bib8)]常被用于为单个核苷酸分配重要性分数。然而,这些方法存在局限性。例如,先前工作表明,即使模型参数被随机化[9 (https://arxiv.org/html/2605.14073#bib.bib9)],某些显著性图也基本保持不变,这引发了对它们是否反映真实模型行为的担忧。如果可解释性仅在训练后引入,它不会影响模型形成决策的方式。另一种方法是在训练过程中融入可解释性。先前工作已通过显著性引导掩码和一致性约束探索了这一想法[10 (https://arxiv.org/html/2605.14073#bib.bib10),11 (https://arxiv.org/html/2605.14073#bib.bib11),12 (https://arxiv.org/html/2605.14073#bib.bib12),16 (https://arxiv.org/html/2605.14073#bib.bib16)]。在一个相关方向上,统一重力损失[14 (https://arxiv.org/html/2605.14073#bib.bib14)]通过在训练过程中塑造特征空间来提升鲁棒性。尽管具有相关性,这一方向在基因组序列建模中仍相对未被充分探索。AttnGen遵循这一视角,通过集成一个轻量级注意力机制,在前向传播中估计核苷酸重要性。信息量较少的位置会被逐步掩码,鼓励模型专注于一小部分判别区域,同时保留必要的上下文。
我们在Genomic Benchmarks集合[13 (https://arxiv.org/html/2605.14073#bib.bib13)]中的标准化demo\_human\_or\_worm数据集上评估该方法。我们的目标是研究掩码低重要性位置是否能保持预测性能,以及学习到的重要性分数是否与模型预测一致。为此,我们进行基于梯度的消融实验,通过去除高、低显著性核苷酸并测量分类准确率的变化。
## II. 相关工作
### II-A 基因组序列建模中的深度学习
与图像或自然语言不同,基因组序列缺乏清晰的空域或语义分割,这使得手工特征设计既需要专业知识又缺乏鲁棒性。深度学习通过使模型能够直接从原始DNA序列学习表示来解决这一挑战,而无需依赖预定义特征。早期工作证明,卷积神经网络(CNN)可以仅从序列数据中捕捉调控模式。Alipanahi等人[15 (https://arxiv.org/html/2605.14073#bib.bib15)]展示了CNN能够推断DNA和RNA结合蛋白特异性,无需预定义的基序模板,这在该领域提供了端到端学习的首批明确示范之一。大约在同一时间,DeepSEA[17 (https://arxiv.org/html/2605.14073#bib.bib17)]引入了一个多任务卷积框架,能够在单核苷酸分辨率下预测染色质效应,突显了微小的序列变化如何导致可测量的调控变化。
随着架构表达能力增强,研究重点转向对局部感受野之外的交互进行建模。调控元件通常涉及相隔数十甚至数百个核苷酸的基序,要求模型捕捉长程依赖。DanQ[18 (https://arxiv.org/html/2605.14073#bib.bib18)]通过将卷积层与双向LSTM结合来解决这一限制,使基序级别的表示能够在更长的序列跨度上进行交互。最近的工作则纳入了注意力机制,用于模拟可能跨越数千碱基对的远端增强子-启动子交互[8 (https://arxiv.org/html/2605.14073#bib.bib8)]。总体而言,这些方法反映了从局部基序检测向建模分布式和上下文依赖调控结构的转变。
尽管取得了这些进展,评估基因组建模的进展仍然具有挑战性。报告的性能提升往往依赖于预处理流程、筛选策略或数据集划分。即使是微小的实现选择也可能导致结果出现显著差异,使得难以将改进归因于模型设计本身。Genomic Benchmarks[13 (https://arxiv.org/html/2605.14073#bib.bib13)]的引入部分解决了这一问题,它提供了一个经过整理的数据集集合,并附有标准化预处理和基线实现。然而,尽管此类基准测试提高了评估一致性,它们并未完全解决不同训练策略——尤其是那些针对可解释性的策略——在受控条件下的表现行为。
在本工作中,我们采用Genomic Benchmarks集合中的demo\_human\_or\_worm数据集。该数据集包含100,000条长度为200的DNA序列,定义了一个平衡的二分类任务。其受控的设置使我们能够研究显著性引导训练的效果,而不受自定义数据处理流程引入的混杂变异影响。
### II-B 可解释性与显著性引导训练
大多数可解释性方法在模型训练后运行。基于梯度的显著性图[5 (https://arxiv.org/html/2605.14073#bib.bib5)]通过局部敏感性估计输入重要性,而积分梯度[6 (https://arxiv.org/html/2605.14073#bib.bib6)]和Grad-CAM[19 (https://arxiv.org/html/2605.14073#bib.bib19)]提供了旨在改善归因质量的改进方法。然而,这些方法存在已知局限:基于梯度的解释可能带有噪声且对微小扰动敏感,而基于扰动的方法通常计算成本高昂。在基因组应用中,这种不稳定性尤其成问题,因为重要性分数的微小变化会直接影响生物学解释。
更根本的是,先前工作表明,即使模型参数被随机化[9 (https://arxiv.org/html/2605.14073#bib.bib9)],某些显著性方法也可能产生视觉上合理的解释,这引发了对这些解释是否反映真实模型行为或仅仅是合理伪影的担忧。与此同时,将基于梯度的显著性整合到训练循环中并非易事。每次迭代计算显著性需要额外的反向传播,并可能在优化过程中引入不稳定性[20 (https://arxiv.org/html/2605.14073#bib.bib20)]。这使得难以将归因信号直接纳入学习过程。另一种方法是在前向传播中估计重要性分数。注意力机制提供了这样一种途径:它产生可微分的重要性权重,无需重复的梯度计算,因此更适合整合到训练目标中。显著性引导训练(SGT)[11 (https://arxiv.org/html/2605.14073#bib.bib11)]基于这一思想,通过掩码低重要性特征并使用KL散度正则化项强制原始预测与掩码预测之间的
一致性。这种方法鼓励模型更少依赖噪声或偶然特征,更多依赖稳定、可预测的结构。
我们将这一原则应用于AttnGen中的基因组序列分类。我们不依赖于训练期间基于梯度的显著性,而是使用轻量级注意力机制在前向传播中估计每个核苷酸的重要性。渐进掩码和基于KL的一致性得以保留,但针对序列数据进行了重新表述,其中掩码单个核苷酸引入的结构约束与掩码图像中的像素有所不同。
### II-C 研究空白与我们的贡献
尽管基因组深度学习架构已变得日益复杂,但关于可解释性约束如何影响基于序列的优化的研究相对较少。现有的显著性引导方法主要是在视觉场景中开发的,其中掩码操作针对连续的像素强度。相比之下,基因组序列是离散且符号化的,掩码单个核苷酸可能会以非平凡的方式改变局部上下文和下游表示。
因此,尚不清楚显著性引导训练策略是否能有效迁移到基因组序列建模中,尤其是在标准化评估设置下。在本工作中,我们通过AttnGen(一个注意力引导的显著性学习框架)来研究这一问题。通过将前向传播重要性评估与结构化掩码和一致性约束相结合,我们考察是否能够以直接塑造核苷酸级别重要性及由此产生的生物学解释的方式,将可解释性纳入训练过程。
## III. 问题陈述
### III-A 任务定义
令 D = {(xi, yi)}i=1^N 表示一个基因组数据集,其中每个 xi ∈ Σ^L 是一条长度为 L 的 DNA 序列,字母表 Σ = {A, T, G, C},而 yi ∈ {0, 1} 表示类别标签(人类 对比 秀丽隐杆线虫)。我们的目标是学习一个分类器 fθ: Σ^L → R^2,该分类器在未见序列上表现良好,同时还能揭示序列中哪些位置对其决策贡献最大。除了预测准确性,我们还检验模型输出是否得到有生物学意义的模式支持,而非浅层相关性。许多现有方法将预测性能作为主要的优化目标。尽管有些方法融入了领域知识或基序约束,但标准的端到端神经网络训练通常不会区分信息丰富的位置与贡献微小信号的位置。在实践中,基因组序列并非均匀包含信息。某些区域包含调控基序或保守子序列,而其他区域则引入冗余或噪声。因此,一个核心问题浮现:训练过程本身能否鼓励模型聚焦于判别位置,而不是依赖分散的或数据集特定的线索?
### III-B 挑战与研究问题
卷积序列模型提供了强大的分类准确性,但它们在哪些核苷酸驱动预测方面提供的透明度有限。归因技术可以估计重要性分数,但这些分数通常在训练后计算,并不会改变表示的形成方式。这种学习与解释之间的分离造成了不匹配:模型可能依赖那些在事后分析中显得微弱或不稳定的特征,使得生物学解释变得不确定。另一个困难来自许多基因组数据集中存在的位置偏差和组成偏差。模型可能利用这些偏差来获得高训练准确率,而无需学习能够泛化到当前数据集之外的关
系。此外,将基于梯度的显著性直接纳入优化过程会引入计算开销,并可能在反向传播中加剧不稳定性[20 (https://arxiv.org/html/2605.14073#bib.bib20)]。这些考虑引出了三个指导性问题。我们首先考察注意力机制能否以在训练期间保持稳定的方式近似梯度推导的显著性。然后研究基于学习到的重要性掩码序列位置如何影响模型聚焦和预测行为。最后,我们考察不同的掩码强度如何影响核苷酸级分类中的准确性、可解释性和鲁棒性之间的平衡。
### III-C 方法概述
我们提出AttnGen,一个注意力引导的显著性学习框架,将可解释性融入训练过程。相似文章
AlphaGenome:用于更好地理解基因组的人工智能
DeepMind 推出 AlphaGenome,这是一个能够预测 DNA 序列变异如何影响基因调控和生物过程的 AI 模型,可应用于多种细胞类型和组织。该模型可处理多达 100 万个碱基对,通过 API 向非商业研究提供,完整论文已在《自然》杂志上发表。
LDARNet:用于基因组建模的具有可学习分词的DNA自适应表示网络
LDARNet 是一个拥有1.2亿参数的层次化基因组基础模型,引入了可学习的自适应分词机制(灵感来源于 H-Net 的动态分块),用于DNA序列的掩码语言建模。该模型在5项组蛋白修饰任务上取得了最先进的结果,并在多项基因组基准测试中超越了参数量多达其20倍的模型。其学习到的分词边界与启动子motif和剪接位点等生物学特征高度吻合。
时间增强图注意力网络用于可供性分类
EEG-tGAT是一种时间增强的图注意力网络,通过融合时间注意力和dropout机制来改进交互序列的可供性分类。该模型在GATv2基础上进行了增强,适用于时间维度语义不均匀的序列数据。
SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推
SEGA是一种无需训练的方法,通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力,改善高分辨率文本到图像生成。
通过教学实现可解释的机器学习
OpenAI 提出了一种机器教学方法,其中教师神经网络学习选择最具代表性的示例来教导学生网络识别概念,通过将示例与人类可理解的特性相关联而不是任意的特征编码,产生可解释的结果。