ITNet：一种可学习的积分变换，统一了卷积、注意力与递归

arXiv cs.AI 2026/06/20 04:00 论文

unified-architecture integral-transform deep-learning convolution attention recurrence universal-approximator

摘要

介绍 ITNet，一种基于可学习积分变换的神经网络架构，统一了卷积、注意力与递归，在多种模态上取得了强劲结果。

arXiv:2606.19538v1 公告类型：新发布摘要：卷积网络、递归网络和Transformer各自编码了不同的归纳偏置——局部性、序列记忆和内容相关的成对交互——自诞生以来一直保持数学上的区别。我们表明，这种碎片化反映的并非信号处理方式的根本多样性，而是对一个单一基础数学对象的不完整视图：一种可学习的积分变换。我们引入了积分变换网络（ITNet），这是一种统一架构，围绕一个同时依赖于位置和特征的可学习核构建。该核通过一个小型神经网络（具体为MLP）实现，用于建模成对交互，使模型能够从数据中自适应其行为。我们证明，卷积、自注意力（包括多头）和自回归递归（包括LSTM、GRU、S4和Mamba）在适当参数化下均作为特例出现，并且ITNet是连续算子的通用逼近器。为了使其实用，我们开发了分块核融合、重要性加权蒙特卡洛积分和可学习的低秩分解，从而实现高效且可扩展的计算。单一ITNet架构搭配共享算子和轻量级模态特定编码器，在ImageNet-1K、GLUE、ModelNet40、VQA v2和NLVR2上匹配或超越了特定任务的基线。结果表明，单一的学习交互机制可以从数据中恢复所有三种架构族的行为。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:31

# ITNet：一种可学习积分变换，统一了卷积、注意力和递归

来源: https://arxiv.org/html/2606.19538

\@preprinttrue\@submissionfalse

Ashim Dhor¹, Rasel Mondal¹, Pin Yu Chen²

¹印度科学教育与研究学院博帕尔分校  
²IBM研究院  

[email protected], [email protected], [email protected]

###### 摘要

卷积网络、递归网络和 Transformer 各自编码了不同的归纳偏置——局部性、序列记忆和内容相关的成对交互——自它们诞生以来在数学上一直彼此独立。我们表明，这种碎片化反映的并非信号处理方式的基本多样性，而是对同一个底层数学对象——一种可学习的积分变换——的不完整视图。我们引入了积分变换网络（ITNet），这是一种统一的架构，围绕一个同时依赖于位置和特征的**可学习核**构建。该核通过一个小型神经网络（具体为 MLP）实现，用于建模成对交互，使模型能够从数据中自适应其行为。我们证明，卷积、自注意力（包括多头）和自回归递归（包括 LSTM、GRU、S4 和 Mamba）在适当的参数化下都是其特例，并且 ITNet 是连续算子的通用逼近器。为了使其实用化，我们开发了分块核融合、基于重要性加权的蒙特卡洛积分和可学习的低秩分解，实现了高效且可扩展的计算。一种共享算子且配备轻量级模态特定编码器的单一 ITNet 架构，在 ImageNet-1K、GLUE、ModelNet40、VQA v2 和 NLVR2 上达到或超过了专门化基线。结果表明，单一学习到的交互机制可以从数据中恢复所有三个架构家族的行为。

## 1. 引言

深度学习的历史在很大程度上是架构设计的历史。卷积网络 [53](https://arxiv.org/html/2606.19538#bib.bib1) 编码了图像模式是**局部**且**平移不变**的偏置。长短期记忆网络 (LSTM) [44](https://arxiv.org/html/2606.19538#bib.bib2) 编码了另一种偏置：序列数据携带时间依赖性，必须通过可学习的门控机制选择性地记忆或遗忘。Transformer [93](https://arxiv.org/html/2606.19538#bib.bib3) 又编码了另一种：序列元素之间的关系最好通过学习到的投影之间的**内容相关成对相似性**来捕捉，使得每个位置可以同时关注所有其他位置。每一个都是深刻的贡献，并且在根本上重塑了其领域。然而，每一个都是为特定类别的数据设计的，彼此孤立。结果，现代深度学习拥有三个主导的架构家族，它们通过完全不同的数学视角来解决同一个基本问题——将结构化信号转换为语义有意义的表示。实际后果是，实践者必须在看到任何数据之前做出**先验**的架构选择。图像建议 CNN [53](https://arxiv.org/html/2606.19538#bib.bib1), [41](https://arxiv.org/html/2606.19538#bib.bib14)；文本建议 Transformer [93](https://arxiv.org/html/2606.19538#bib.bib3)；时间序列建议 RNN 或状态空间模型 [44](https://arxiv.org/html/2606.19538#bib.bib2), [37](https://arxiv.org/html/2606.19538#bib.bib4), [36](https://arxiv.org/html/2606.19538#bib.bib5)；不规则点云则落在所有三种范式之外 [73](https://arxiv.org/html/2606.19538#bib.bib16), [95](https://arxiv.org/html/2606.19538#bib.bib17)；而多模态数据需要拼接那些从未被设计为共存的组件 [11](https://arxiv.org/html/2606.19538#bib.bib75), [56](https://arxiv.org/html/2606.19538#bib.bib51)。这种碎片化表明，我们目前对如何变换结构化信号的数学理解仍不完整。

我们研究一个单一操作是否可以将卷积、自注意力和递归作为精确特例统一起来。我们证明答案是肯定的：一种可学习的积分变换，定义于公式 (1) (https://arxiv.org/html/2606.19538#S2.E1)，其核同时依赖于两端的位置和特征。该算子通过一个学习到的、内容与位置相关的交互函数，聚合所有位置的信息，同时保留一个残差连接以保证稳定性。核由一个小型神经网络实现，接收查询和键位置的绝对位置、相对几何以及特征内容，从而能够建模广泛的交互模式。关键的新颖之处在于，交互模式不是硬编码的（例如 CNN 中的局部性或 Transformer 中的点积注意力），而是在一个统一公式内直接从数据中学习得到。这使得单一算子能够根据任务自适应地恢复局部、全局和序列行为，而无需单独的架构设计。我们称之为**积分变换网络 (ITNet)** 。通过同时关注两端的内容，核将局部性、位置敏感性和归一化作为**涌现行为**学习得到。实验上（§4 (https://arxiv.org/html/2606.19538#S4)），它在图像上表现类似卷积，在文本上表现类似注意力，在点云上表现几何感知的交互。核形式 \(\kappa(x, y, u(x), u(y))\) 源自 GNO [4](https://arxiv.org/html/2606.19538#bib.bib7)。然而，先前工作并未：(i) 展示对 CNN、Transformer 和 RNN 的精确包含关系，(ii) 开发可扩展的实现（分块融合、蒙特卡洛、低秩），或 (iii) 在单一架构内证明跨视觉、语言和多模态任务的强性能。

我们证明了四个结果（证明概要见 §2 (https://arxiv.org/html/2606.19538#S2)；完整证明见附录 C (https://arxiv.org/html/2606.19538#A3)–F (https://arxiv.org/html/2606.19538#A6)）：

1. **卷积** (定理 1 (https://arxiv.org/html/2606.19538#Thmtheorem1))：\(\kappa_\theta = w_\theta(x-y)\mathbf{I}_d\) 精确恢复卷积，包括多通道、深度可分离、扩张、步长和分组变体。
2. **自注意力** (定理 2 (https://arxiv.org/html/2606.19538#Thmtheorem2))：Softmax 归一化点积核精确恢复缩放点积自注意力，包括多头注意力。
3. **递归** (定理 3 (https://arxiv.org/html/2606.19538#Thmtheorem3))：因果核（\(\kappa_\theta = 0\) 当 \(y > x\)）精确恢复递归神经网络 (RNN)、LSTM、门控循环单元 (GRU) [13](https://arxiv.org/html/2606.19538#bib.bib24)、S4 [37](https://arxiv.org/html/2606.19538#bib.bib4) 和 Mamba [36](https://arxiv.org/html/2606.19538#bib.bib5)。
4. **通用逼近** (定理 4 (https://arxiv.org/html/2606.19538#Thmtheorem4))：ITNet 一致逼近任意连续算子。此外，\(\mathrm{Conv} \subsetneq \mathrm{ITNet} \supsetneq \mathrm{Attn}\) 且 \(\mathrm{RNN} \subsetneq \mathrm{ITNet}\)。

我们开发了三种可扩展策略以使该算子实用：(i) 具有最优输入/输出 (IO) 复杂度的分块核融合，(ii) 基于重要性加权的蒙特卡洛 (MC) 近似，以及 (iii) 用于线性时间计算的学低秩分解。一种单一的 ITNet 架构，带有共享的核心算子和轻量级模态特定编码器，在多个领域取得了强性能，包括 ImageNet-1K [80](https://arxiv.org/html/2606.19538#bib.bib35)（视觉）、GLUE [94](https://arxiv.org/html/2606.19538#bib.bib44)（语言理解）、ModelNet40 [86](https://arxiv.org/html/2606.19538#bib.bib71)（3D 几何）以及 VQA v2 [33](https://arxiv.org/html/2606.19538#bib.bib48) 和 NLVR2 [85](https://arxiv.org/html/2606.19538#bib.bib49)（多模态推理）。在这些任务上，ITNet 在使用统一设计的同时达到或超过了专门化架构，表明单一学习到的交互算子可以在没有领域特定架构偏置的情况下跨模态泛化。相关工作的详细讨论见附录 B (https://arxiv.org/html/2606.19538#A2)。

## 2. 积分变换网络 (ITNet) 的理论基础

我们定义 ITNet 算子（§2.1 (https://arxiv.org/html/2606.19538#S2.SS1)），证明卷积、自注意力和递归作为精确特例（§2.2 (https://arxiv.org/html/2606.19538#S2.SS2)），并建立通用算子逼近（§2.3 (https://arxiv.org/html/2606.19538#S2.SS3)）。全文使用的完整符号总结于附录 A (https://arxiv.org/html/2606.19538#A1) 的表 6、7 和 8。

### 2.1. ITNet 算子

令 \(\Omega \subseteq \mathbb{R}^s\) 表示输入域（例如，图像 \(s=2\)，序列 \(s=1\)），配备一个正有限测度 \(\mu\)，定义输入如何聚合。令 \(u: \Omega \to \mathbb{R}^d\) 表示信号，其中 \(d\) 是特征维度。我们在空间 \(\mathcal{U} = C(\Omega, \mathbb{R}^d)\) 中工作，该空间是 \(\Omega\) 上 \(\mathbb{R}^d\) 值连续函数的空间，配备一致范数 \(\|u\|_\infty = \sup_{x\in\Omega} \|u(x)\|_2\)。

###### 定义 1 (ITNet 算子)
*ITNet 算子* \(\mathcal{K}_\theta: \mathcal{U} \to \mathcal{U}\) 定义为
\[
(\mathcal{K}_\theta[u])(x) = \int_\Omega \kappa_\theta\bigl(x, y, u(x), u(y)\bigr)\, u(y) \; d\mu(y) + W_\theta u(x), \qquad x\in\Omega,
\]
其中 \(\kappa_\theta: \mathbb{R}^s \times \mathbb{R}^s \times \mathbb{R}^d \times \mathbb{R}^d \to \mathbb{R}^{d\times d}\) 是由 \(\theta\) 参数化的可学习矩阵值核，\(W_\theta \in \mathbb{R}^{d\times d}\) 是可学习的残差矩阵。核接收查询位置 \(x\)、键位置 \(y\) 及其特征 \(u(x), u(y)\)。积分聚合来自所有 \(y \in \Omega\) 的变换后特征；残差确保算子可以表示恒等映射（\(\kappa_\theta=0, W_\theta=\mathbf{I}_d\)）。

**核参数化**：核 \(\kappa_\theta\) 是一个 2 层 MLP（GELU [43](https://arxiv.org/html/2606.19538#bib.bib82)，宽度 \(w_\kappa=128\)，输出 \(d^2\) 重塑为 \(\mathbb{R}^{d\times d}\)）。其输入拼接了七个捕捉位置和特征交互的组。原始形式下，输入为：
\[
z_{xy}^{\mathrm{raw}} = [x; y; x-y; \|x-y\|_2; u(x); u(y); u(x) \odot u(y)] \in \mathbb{R}^{3s+1+3d},
\]
其中三个位置组贡献 \(3s\) 维（绝对位置 \(x, y \in \mathbb{R}^s\) 和相对位置 \(x-y \in \mathbb{R}^s\)），标量距离贡献 1 维，三个特征组贡献 \(3d\) 维（查询 \(u(x)\)、键 \(u(y)\) 和哈达玛积 \(u(x) \odot u(y)\)，各在 \(\mathbb{R}^d\) 中）。为了使核 MLP 能够表示高频空间函数，我们通过随机傅里叶特征映射 [87](https://arxiv.org/html/2606.19538#bib.bib32) \(\gamma: \mathbb{R}^s \to \mathbb{R}^{2L_f}\)（式 (199) (https://arxiv.org/html/2606.19538#A8.E199)，其中 \(L\) 是傅里叶频率数）提升每个位置组，将 \(x \mapsto \gamma(x), y \mapsto \gamma(y), x-y \mapsto \gamma(x-y)\)。MLP 输入为：
\[
z_{xy} = [\gamma(x); \gamma(y); \gamma(x-y); \|x-y\|_2; u(x); u(y); u(x) \odot u(y)] \in \mathbb{R}^{6L_f+1+3d},
\]
取 \(L=64, \sigma=10\)，得到输入维度 \(385+3d\)。位置组使得平移不变模式（通过 \(x-y\)）、基于距离的衰减（通过 \(\|x-y\|_2\)）以及位置特定行为（通过绝对 \(x, y\)）成为可能。特征组——尤其是哈达玛积 \(u(x) \odot u(y)\)——提供了比标准注意力中秩为 1 的点积更丰富的 \(d\) 维逐元素交互。根据通用逼近定理 [46](https://arxiv.org/html/2606.19538#bib.bib100), [20](https://arxiv.org/html/2606.19538#bib.bib28)，紧致域 \(\mathcal{D} = \{(x,y,u(x),u(y)): x,y\in\Omega, u\in\mathcal{U}_c\}\) 上的任意连续核都可以被任意精度近似。我们在所有实验中归一化 \(\mu(\Omega)=1\)：对离散域 \(\mu(\{x_j\})=1/n\)，对连续域 \(\mu = \mathrm{vol}(\Omega)^{-1} \cdot \lambda\)，确保积分项和残差项在可比尺度上操作。

**多头形式**：遵循 [93](https://arxiv.org/html/2606.19538#bib.bib3)，多头 ITNet 算子将特征维度拆分为 \(H\) 个头，每个头维度 \(d_h = d/H\)，为每个头应用独立核 \(\kappa_\theta^{(h)}\)，并通过输出投影 \(W^O \in \mathbb{R}^{d\times d}\) 重组：
\[
(\mathcal{K}_\theta^{\mathrm{MH}}[u])(x) = W^O \begin{bmatrix}
\int_\Omega \kappa_\theta^{(1)}(x,y,u^{(1)}(x),u^{(1)}(y))\, u^{(1)}(y) \, d\mu(y) \\
\vdots \\
\int_\Omega \kappa_\theta^{(H)}(x,y,u^{(H)}(x),u^{(H)}(y))\, u^{(H)}(y) \, d\mu(y)
\end{bmatrix} + W_\theta u(x),
\]
其中 \(u^{(h)}(x) = u(x)[(h-1)d_h+1 : h d_h]\) 表示第 \(h\) 个头的特征切片。每个头的核操作 \(d_h\) 维特征，因此每对成本为 \(O(d_h^2) = O(d^2/H^2)\)；对 \(H\) 个头求和得到每对 \(O(d^2/H)\)——相对于单个 \(d\times d\) 核减少了因子 \(H\)。下面的所有定理（定理 1-4）按头应用；输出投影 \(W^O\) 线性组合独立头的贡献，不影响特例证明。

一个深层 ITNet 模型堆叠 \(L\) 个算子层（\(\ell=1,2,\dots,L\)），采用预归一化和逐位置前馈网络，遵循标准的预归一化 Transformer 布局 [99](https://arxiv.org/html/2606.19538#bib.bib62)：
\[
z^{(\ell)} = \mathcal{K}_\theta^{(\ell)}[\mathrm{LN}(u^{(\ell-1)})] + u^{(\ell-1)}, \qquad u^{(\ell)} = \mathcal{F}_\theta^{(\ell)}(\mathrm{LN}(z^{(\ell)})) + z^{(\ell)},
\]
其中 \(\mathrm{LN}\) 表示层归一化 [5](https://arxiv.org/html/2606.19538#bib.bib91)，\(\mathcal{F}_\theta^{(\ell)}\) 是带有 GELU [43](http...

相似文章

UniT：基于分组自回归Transformer的统一几何学习

Hugging Face Daily Papers

UniT是一种统一的几何感知前馈模型，采用分组自回归Transformer，集成了多种范式（在线/离线、多模态、长时域），同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。

DisjunctiveNet: 通过可微凸优化层实现的神经符号学习

arXiv cs.LG

介绍DisjunctiveNet，一个统一的端到端框架，通过可微凸优化层在神经网络中强制执行硬性的、输入相关的混合整数线性约束，在真实世界数据集上实现完美的规则满足。

面向脑功能连接表征学习的网络感知双线性分词方法

arXiv cs.AI

NERVE提出了一种网络感知的双线性分词方法，用于基于掩码自编码器的脑功能连接矩阵自监督学习，改善跨发育队列的表征学习。

输入凸神经网络训练的一种提升方法

arXiv cs.LG

提出了一种用于训练输入凸神经网络（ICNN）的“提升”方法，该方法使用无约束的超网络生成非负的层间权重，从而软化损失景观并避免梯度衰减，相比投影梯度下降和softplus重参数化，实现了更低的测试损失。

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。传统 Transformer 的 Attention 机制，本质上是点对点匹配，把输入切成一堆 token，即离散点，然后算 Query 和 Key 的相似度，再加权 Value。这在 NLP…

X AI KOLs Timeline

介绍ICML 2026论文Functional Attention，将函数作为第一公民，用结构化线性算子替代softmax点对点相似度，解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题，在PDE求解、3D分割等任务上达到或超过SOTA，并具良好OOD泛化能力。