齐性空间上的可转向神经常微分方程

arXiv cs.LG 论文

摘要

本文介绍了齐性空间上的可转向神经常微分方程,为学习连续时间的等变动力学提供了一个几何框架。

arXiv:2605.11133v1 公告类型:new 摘要:我们介绍了齐性空间 $M=G/H$ 上的可转向神经常微分方程(Steerable Neural Ordinary Differential Equations)。这些模型构成了流形神经常微分方程(NODEs)的一种新颖的几何扩展,能够传输在局部对称群 $H$ 下变换的相关特征向量。我们将特征解释为 $M$ 上相关向量丛的截面,并将它们的演化描述为平行移动。这产生了一个由 $M$ 上的流方程和作用于特征的转向方程组成的耦合常微分方程组。我们证明,只要生成流的向量场和支配平行移动的联络都是 $G$-不变的,可转向 NODEs 就是 $G$-等变的。此外,我们展示了可转向 NODEs 如何整合现有的 NODE 模型和李群上的连续归一化流。我们的框架为在齐性空间上学习一般矢量特征的连续时间等变动力学提供了几何基础。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:31

# 齐性空间上的可转向神经常微分方程

来源: https://arxiv.org/html/2605.11133

###### 摘要

我们引入了在齐性空间 $M=G/H$ 上的**可转向神经常微分方程(Steerable Neural ODEs)**。这些模型构成了流形神经常微分方程(NODEs)的一种新颖几何扩展,它能够传输在局部对称群 $H$ 下变换的相关特征向量。我们将特征解释为 $M$ 上关联向量丛的截面,并将其演化描述为平行移动。这导致了一个由 $M$ 上的流方程和作用于特征的转向方程组成的耦合常微分方程组。我们证明,只要生成流的向量场和控制平行移动的联络都是 $G$-不变的,可转向 NODEs 就是 $G$-等变的。此外,我们展示了可转向 NODEs 如何纳入现有的李群上的 NODE 模型和连续归一化流。我们的框架为在齐性空间上学习一般向量值特征的连续时间等变动力学提供了几何基础。

**Emma Andersdotter**  
[email protected]  
乌梅奥大学数学与数学统计系  
瑞典乌梅奥 SE-901 87

**Daniel Persson**  
[email protected]  
查尔姆斯理工大学和哥德堡大学数学科学系  
瑞典哥德堡 SE-412 96

**Fredrik Ohlsson**  
[email protected]  
乌梅奥大学数学与数学统计系  
瑞典乌梅奥 SE-901 87

###### 目录

1. [1 引言](https://arxiv.org/html/2605.11133#S1)
   1. [1.1 背景与动机](https://arxiv.org/html/2605.11133#S1.SS1)
   2. [1.2 结果总结](https://arxiv.org/html/2605.11133#S1.SS2)
   3. [1.3 论文结构](https://arxiv.org/html/2605.11133#S1.SS3)
2. [2 数学预备知识](https://arxiv.org/html/2605.11133#S2)
   1. [2.1 纤维丛](https://arxiv.org/html/2605.11133#S2.SS1)
   2. [2.2 联络与平行移动](https://arxiv.org/html/2605.11133#S2.SS2)
   3. [2.3 齐性空间](https://arxiv.org/html/2605.11133#S2.SS3)
3. [3 齐性空间上的可转向神经常微分方程](https://arxiv.org/html/2605.11133#S3)
   1. [3.1 动机与一般设定](https://arxiv.org/html/2605.11133#S3.SS1)
   2. [3.2 特征场与诱导表示](https://arxiv.org/html/2605.11133#S3.SS2)
   3. [3.3 通过平行移动实现的可转向 NODEs](https://arxiv.org/html/2605.11133#S3.SS3)
4. [4 可转向 NODEs 的等变性](https://arxiv.org/html/2605.11133#S4)
   1. [4.1 通过水平流实现的等变性](https://arxiv.org/html/2605.11133#S4.SS1)
   2. [4.2 局部表述中的等变性](https://arxiv.org/html/2605.11133#S4.SS2)
   3. [4.3 不变联络与王定理](https://arxiv.org/html/2605.11133#S4.SS3)
5. [5 与现有 NODE 模型的关系](https://arxiv.org/html/2605.11133#S5)
   1. [5.1 平行移动与前推(Push-forward)](https://arxiv.org/html/2605.11133#S5.SS1)
   2. [5.2 $G/H$ 上的连续归一化流](https://arxiv.org/html/2605.11133#S5.SS2)
      1. [5.2.1 李群 $G$ 上的连续归一化流](https://arxiv.org/html/2605.11133#S5.SS2.SSS1)
      2. [5.2.2 与 $G/H$ 上 NODEs 的联系](https://arxiv.org/html/2605.11133#S5.SS2.SSS2)
   3. [5.3 示例:$S^2$ 上的可转向 NODEs](https://arxiv.org/html/2605.11133#S5.SS3)
6. [6 结论](https://arxiv.org/html/2605.11133#S6)
7. [参考文献](https://arxiv.org/html/2605.11133#bib)
8. [附录 A:定义 3.3 的证明](https://arxiv.org/html/2605.11133#A1)
9. [附录 B:$G \to G/H$ 的王定理证明](https://arxiv.org/html/2605.11133#A2)

## 1 引言

### 1.1 背景与动机

由 Chen 等人引入的神经常微分方程(NODEs)\[7\],是一类机器学习模型,其中数据根据可学习的向量场在时间上连续变换,而不是像传统神经网络那样通过有限序列的离散层进行变换。形式上,NODE 定义了一个动力系统,其流映射通过积分常微分方程将输入数据传输到输出数据。这种连续表述赋予 NODEs 多种吸引人的特性,包括可逆性、深度方向的参数共享,以及作为数据空间微分同胚的自然解释。此外,NODEs 为建模连续时间动力学提供了一种严谨的方法,特别适用于涉及不规则采样、自适应计算和动力系统的问题。

NODEs 最具影响力的应用之一是在生成建模中,由此产生了连续归一化流(CNFs)\[7\]。在这种设定下,NODE 定义了一个微分同胚的变量变换,概率密度通过沿流诱导的前推(push-forward)进行变换。CNFs 结合了深度生成模型的表达能力与精确的似然评估及可逆性,并在多个几何方向上得到了进一步发展,包括群流形和商空间。这包括用于生成分子和蛋白质结构的模型\[34, 5, 25, 14, 11\],以及应用于格点规范理论和物理启发模型的应用\[15, 18\]。

许多现代机器学习问题涉及本质上非欧几里得且表现出对称性的数据,例如定义在流形、图或商空间上的数据。几何深度学习的目标是将这些结构直接纳入尊重基础几何和对称性约束的模型架构中。从这个角度来看,在 $\mathbb{R}^n$ 上操作的神经网络只是一个特例,需要更通用的构造来处理生活在弯曲空间上或在群作用下变换的数据。李群和齐性空间在此设定中发挥着核心作用,因为它们为描述物理学、机器人学和机器学习中遇到的连续对称性提供了一种自然的语言。

几何深度学习中 NODEs 的一个自然设定是考虑光滑流形 $M$ 上的常微分方程,而不是 $\mathbb{R}^n$,以适应非欧几里得数据\[12, 28, 29\]。支配 NODE 模型的常微分方程则由以下柯西问题给出:

$$
\frac{d}{dt}\Phi_p(t) = \phi_{\Phi_p(t)}, \quad \Phi_p(0) = p, \tag{1.1}
$$

其中 $p$ 是 $M$ 中的一点,$\Phi_p: \mathbb{R} \to M$ 是唯一的解曲线,$\phi: M \to TM$ 是一个可学习的向量场,例如由神经网络参数化。该 NODE 可以被解释为由 $\psi: p \mapsto \Phi_p(1)$ 定义的微分同胚 $\psi: M \to M$,它将输入 $p \in M$ 映射到模型的输出 $\Phi_p(1) \in M$。

当数据在某个群 $G$ 下表现出全局对称性时,需要构建等变 NODEs,这在欧几里得设定中由\[21\]获得,在黎曼流形 $M$ 中由\[19\]获得。在我们之前的工作\[1\]中,我们研究了流形上的等变 NODEs,并建立了向量场不变性蕴含所得流等变性的条件。特别是,我们表明等变流形 NODEs 可以进一步广义化,并根据 $G$ 作用的微分不变量进行参数化。我们还证明了当 $M$ 连通时,它们是通用近似器。

在存在局部对称性的情况下,结合也表现出非平凡变换性质的数据,需要在 $M$ 上引入特征场。此类特征场的构建在群等变卷积神经网络(CNNs)的背景下已被广泛研究\[9, 8, 16\]。在这种设定下,特征不被视为标量值函数,而是视为在局部对称群 $H$ 的表示中变换的对象。Cohen 及其同事的开创性工作\[9\]表明,群等变 CNN 可以用诱导表示来表述,更一般地,是用齐性空间上关联向量丛的截面来表述。从这个观点来看,卷积算子作为截面空间之间的等变映射出现,或者等价地,作为 $H$ 的表示之间的互反算子,而可转向性(steerability)是关联丛构造中固有的表示论的直接结果。这种丛论视角在离散时间设定中通过卷积与符合全局对称性的等变前馈层之间的联系被证明是强大的\[23, 2\],最近也在等变 Transformer 及其推广的背景下得到了应用\[31\]。然而,基于神经常微分方程的连续时间模型中纳入局部对称性的类似框架仍然缺失。特别是,虽然 NODEs 和 CNFs 描述了作用于标量和标量密度的动作,但尚无通用表述来描述以几何一致的方式作用于一般向量或张量值特征场的基于流的模型,同时尊重问题的对称性。

### 1.2 结果总结

本文的目标是通过引入**可转向神经常微分方程**来填补上述空白,这是 NODEs 的一种几何扩展,能够同时传输流形上的点和相关的特征场。我们的构造基于以下观察:在存在对称性的情况下,特征场自然地描述为向量丛的截面,而不是普通函数。特别是,当基础流形是齐性空间 $M=G/H$ 时,特征向量在稳定子群 $H$ 的表示中变换,自然的几何设定是 $G/H$ 上的关联向量丛。在此框架内,特征场沿 $M$ 中 NODE 轨迹的演化由相应主丛上的联络支配。基础流形上 NODE 关于全局群 $G$ 的等变性诱导了特征传输的等变性,前提是联络与群作用兼容。这导致了一种作用于特征场的诱导作用的概念,尊重问题的所有对称性,并推广了连续归一化流中密度的前推。

更具体地说,我们考虑齐性空间 $M=G/H$ 上的神经常微分方程,其中 $G$ 是李群,$H$ 是闭李子群。李群 $G$ 定义了以 $G/H$ 为底流形、以 $H$ 为纤维的主丛 $G \to G/H$。特征场是映射 $f: G/H \to V$,即关联向量丛 $G \times_\rho V$ 的截面,其中 $V$ 是配备有稳定子群 $H$ 的表示 $\rho$ 的向量空间。主联络 $\omega \in \Omega^1(G, \mathfrak{h})$ 是 $G$ 上的微分 1-形式,取值于 $H$ 的李代数 $\mathfrak{h}$,它在主丛中定义了水平切向量的概念。NODE 的解曲线可以水平提升到主丛,并用于定义由关联丛继承的水平性概念。对特征场 $f$ 的作用是通过要求 $G \times_\rho V$ 在 $\Phi_p(t)$ 上的对应截面处处水平,从而沿 $\Phi_p(t)$ 进行的**平行移动**获得的。可转向 NODE 通过强加水平性来定义,以在特征向量沿 $\Phi_p(t)$ 传输时**转向**该特征向量。这相当于将 $\psi$ 扩展到映射 $\Psi: M \times V \to M \times V$,定义为 $(p, f(p)) \mapsto (\Phi_p(1), f(\Phi_p(1)))$,其中 $f(\Phi_p(1))$ 是通过平行移动获得的。

可转向 NODEs 的几何构造如图 1 所示。

**图 1:** 在齐性空间 $M=G/H$ 上的神经常微分方程(图 1(a))中,点 $p \in M$ 沿由向量场 $\phi$ 支配的流传输到输出 $\Phi_p(1)$。在可转向 NODE(图 1(b))中,该框架扩展以包括与点 $p$ 相关的特征,由特征场 $f: M \to V$ 定义,其中向量空间 $V$ 携带 $H$ 的表示。沿 NODE 轨迹的特征变换由 $G$ 上主联络的平行移动支配。可转向 NODE 的更详细插图可见于图 2。

在可转向 NODEs 中,我们将向量场 $\phi$ 和联络 $\omega$ 都视为可学习量。训练模型意味着学习 $M=G/H$ 中的流以及诱导 $M$ 中点和附加于这些点的 $V$ 中特征向量观察到的变换所需的丛几何结构。与探测关联向量丛表示论方面的现有离散时间模型不同,连续时间可转向 NODEs 还通过联络 $\omega$ 探测丛 $G$ 和 $G \times_\rho V$ 的几何结构。因此,训练可转向 NODE 不仅产生一个近似特征向量观察到的变换的微分同胚,还提供了有关基础问题几何结构的洞察和信息。以此方式,我们的构造引入了几何深度学习中 NODEs 的新颖视角,纳入了内在几何结构的学习,并将范围扩大到齐性空间上的任意特征向量。

我们在本文中描述的主要贡献如下:

*   我们引入了齐性空间 $M=G/H$ 上的可转向 NODEs,作为关联向量丛 $G \times_\rho V$ 中的平行移动。在**定义 3.7** 中,我们提供了模型作为非线性常微分方程组的具体描述;第一个描述 $M$ 中的流,第二个描述在特征向量沿流传输时转向该特征向量的平行移动(见图 1)。
*   我们证明,只要 $\phi$ 和 $\omega$ 都是 $G$-不变的,可转向 NODE 就关于 $G$ 的全局作用是等变的(**定理 4.6**)。在**第 4.3 节**中,我们还利用我们之前的结果\[1\]和王定理(**第 4.3 节**)提供了不变向量场和联络空间的具体参数化。
*   在**第 5 节**中,我们表明李群上的现有 NODEs...

相似文章

分叉附近的状态空间NTK坍缩

arXiv cs.LG

本文发展了动力模型分叉附近梯度下降的局部理论,表明状态空间神经正切核坍缩为秩一算子,主导学习动力学,使优化有效低维且可从规范形式预测。

神经丛扩散中的过度平滑作为表示退化

arXiv cs.LG

本文利用箭图理论和几何不变量理论,分析了神经丛扩散(NSD)中的过度平滑现象,将其视为一种表示退化。文章提出了受矩映射启发的正则化方法,并探讨了在非均匀丛维数下缓解异质图基准测试中该问题的可能性。

基于物理建模的神经网络

arXiv cs.LG

本文介绍了动力学物理建模神经网络(DynPMNNs),这是一种连续时间深度学习架构,其中隐藏层由常微分方程定义。该方法基于再生核巴拿赫空间,具有生物启发性,在加州房屋数据集上展现出与标准神经ODE相当的性能,且参数更少。