$\\textit{BlockFormer}$ : 基于Transformer的交互图推断

arXiv cs.LG 2026/05/22 04:00 论文

transformer interaction-maps hi-c centromere-localization inverse-problem computational-biology deep-learning

摘要

BlockFormer引入了一种变压器架构，用于从块结构交互图（例如，从Hi-C数据中识别着丝粒）中解决逆问题，并使用自定义模拟器生成合成训练数据。

arXiv:2605.21617v1 公告类型：新摘要：从相互作用图（例如，通过全基因组染色体构象捕获技术——特别是Hi-C——识别着丝粒）进行推断可以表述为一个通用的逆问题：给定一个通过可变数量和大小的块总结实体间成对相互作用的图，推断一组参数。在这项工作中，我们引入了一种数据驱动的方法，利用这些图之间的共享结构（例如局部模式的全局对齐），同时处理真实数据中实体数量和大小的可变性。我们的方法依赖于一种能够处理这种可变性的变压器架构，以及一个自定义模拟器，用于生成丰富且计算成本低廉的合成数据进行训练。应用于着丝粒定位问题，该方法能够准确恢复各种基因组大小的广泛物种的基因组位置。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:50

# 基于Transformer的交互图推断  
来源: https://arxiv.org/html/2605.21617  

Eloïse Touron 法国格勒诺布尔阿尔卑斯大学，Inria，CNRS，格勒诺布尔INP，LJK，法国 [email protected] &Pedro L. C. Rodrigues 法国格勒诺布尔阿尔卑斯大学，Inria，CNRS，格勒诺布尔INP，LJK，法国 [email protected] &Julyan Arbel 法国格勒诺布尔阿尔卑斯大学，Inria，CNRS，格勒诺布尔INP，LJK，法国 [email protected] &Nelle Varoquaux TIMC，法国格勒诺布尔阿尔卑斯大学，CNRS，格勒诺布尔INP，法国 [email protected]&Michael Arbel 法国格勒诺布尔阿尔卑斯大学，Inria，CNRS，格勒诺布尔INP，LJK，法国 [email protected]  

###### 摘要  

从交互图中进行推断，例如从全基因组染色体构象捕获技术（特别是Hi-C）中识别着丝粒，可以表述为一个通用的逆问题：给定一个通过可变数量和尺寸的块总结实体间成对交互的图，推断一组参数。在这项工作中，我们引入了一种数据驱动的方法，利用这些图之间的共享结构，例如局部模式之间的全局对齐，同时处理实际数据中实体数量和尺寸的可变性。我们的方法依赖于能够处理这种可变性的Transformer架构，以及一个自定义模拟器，用于生成大量且计算成本低的合成数据进行训练。应用于着丝粒定位问题，该方法能够在各种基因组大小的广泛物种中准确恢复其基因组位置。  

## 1 引言  

交互图总结了系统内实体之间的成对关系。这些图内在地编码了底层系统的结构，可以支持实体级别属性的推断。例如，蛋白质-蛋白质交互图用于识别异常基因表达起源的关键调控蛋白protein (https://arxiv.org/html/2605.21617#bib.bib11)，物种-物种交互图中的模块性有助于识别对生态系统稳定性至关重要的物种ecology (https://arxiv.org/html/2605.21617#bib.bib26)。目标是解决以下逆问题：从给定的交互图中推断每个实体的参数。在许多此类问题中，这些图表现出块状结构，其中每个块代表两个实体之间的交互，块的数量和大小随图而变化。这些图可以展现每个块内部的局部模式，以及跨多个块的非局部信息，例如以逐块模式对齐的形式。几个生物学应用符合这个框架，包括Hi-C图，其中交互实体是染色体。Hi-C图将细胞群中基因组位点之间的物理接触计数总结为块状矩阵，已成为研究DNA折叠及相关遗传疾病的核心工具，特别是通过识别染色质环和拓扑关联结构域（TADs）tads (https://arxiv.org/html/2605.21617#bib.bib9);loops (https://arxiv.org/html/2605.21617#bib.bib33)。除此之外，着丝粒由于在染色体分离和基因组稳定性中的重要作用而成为基因组组织的关键元素kinetochore (https://arxiv.org/html/2605.21617#bib.bib5)。虽然它们传统上是通过实验注释的FISH (https://arxiv.org/html/2605.21617#bib.bib25);CHIP (https://arxiv.org/html/2605.21617#bib.bib22)，但这些方法可能不精确或在某些物种中失败inferfail (https://arxiv.org/html/2605.21617#bib.bib13)。诸如Centurion之类的方法转而通过将高斯分布拟合到交互峰来直接从Hi-C数据推断着丝粒位置nelle (https://arxiv.org/html/2605.21617#bib.bib32)。然而，这个过程是非摊销的且计算成本高，因为它需要解决非凸优化问题；参见附录B (https://arxiv.org/html/2605.21617#A2)。随着大量Hi-C图最近变得可用，利用基于学习的方法来自动化从给定交互图中推断属性（如着丝粒位置）有明确的兴趣。这带来了方法学上的挑战，例如如何有效地设计和学习能够处理具有不同块数量和形状的图，同时捕获跨块一致的结构模式。现成的技术，如监督深度学习，可以应用，但需要手动标注数据，这是昂贵的。贝叶斯推断方法已被提出用于估计某些DNA属性，如染色质压缩和持续长度arbona (https://arxiv.org/html/2605.21617#bib.bib3)，但它们需要定义这些交互图的可处理似然模型，鉴于这些交互的复杂性和丰富结构，这可能具有挑战性。或者，在推断模型时利用模拟数据似乎是绕过这些限制的有希望的方式。基于模拟的推断（SBI）在物理学应用中特别有用sbi_cosmo (https://arxiv.org/html/2605.21617#bib.bib1);sbi_cosmo_1 (https://arxiv.org/html/2605.21617#bib.bib2)，因为存在逼真的模拟器cosmo_simu (https://arxiv.org/html/2605.21617#bib.bib10);cosmo_simu_1 (https://arxiv.org/html/2605.21617#bib.bib16)。先验拟合网络在真实世界表格数据上显示出优异的结果tabfn (https://arxiv.org/html/2605.21617#bib.bib17)，而训练仍然在纯合成数据上进行。在这两种情况下，处理不同尺寸数据的能力仍然是一个活跃的研究课题。在这项工作中111本提交基于早期版本etouron (https://arxiv.org/html/2605.21617#bib.bib31)，该版本曾在一次没有正式会议记录的研讨会上展示。，我们提出了BlockFormer，一个基于Transformer的模型，用于从具有可变块状结构的交互图中推断每个实体的属性。我们的架构采用三维位置编码，允许处理可变的块大小和数量，同时捕获每个块的模式并聚合跨多个块的非局部信息。我们设计了一个简单的模拟器，重现推断所需的模式，从而快速生成交互图。通过该模拟器生成的具有可变结构的合成数据进行预训练，BlockFormer能够在

相似文章

RigidFormer：利用 Transformer 学习刚体动力学

Hugging Face Daily Papers

RigidFormer 是一种新型的无网格、以对象为中心的 Transformer 模型，能够从点云中学习刚体动力学。在多对象接触动力学方面，其在速度和可扩展性上优于基于网格的基线模型。

Block-Based Double Decoders

arXiv cs.LG

提出了一种基于块的雙解碼器（block-based double decoders），这是一种使用双重因果块注意力掩码的新型Transformer架构，结合了解码器仅训练效率与编码器-解码器推理效率，实现了强大的扩展性能并减少了KV缓存内存。

RT-Transformer：将 Transformer Block 视为球面状态估计器

arXiv cs.LG

本文提出了一种理论框架，解释 Transformer 组件（注意力机制、残差连接、归一化）如何源于使用径向-切线随机微分方程（Radial-Tangential SDEs）的球面状态估计问题。

Interfaze：专为规模化场景下高准确率而构建的新型模型架构

Hacker News Top

Interfaze 推出了一种混合 AI 模型架构，结合 CNN/DNN 的专项优势与 Transformer 能力，在 OCR 和翻译等确定性任务上实现卓越精度，同时在规模化应用中保持成本效率。

@berryxia: 兄弟们，我后背没有发凉。但，我看到这个模型架构后高兴不已！大家还在疯狂堆参数、卷通用大模型的时候，Interfaze直接用一个全新混合架构。把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flas…

X AI KOLs Timeline

Interfaze introduces a new hybrid AI model architecture combining DNN/CNN encoders with transformers to achieve superior accuracy and cost-efficiency for deterministic tasks like OCR, vision, and STT compared to generalist models.

相似文章

RigidFormer：利用 Transformer 学习刚体动力学

Block-Based Double Decoders

RT-Transformer：将 Transformer Block 视为球面状态估计器

Interfaze：专为规模化场景下高准确率而构建的新型模型架构

提交意见反馈