基于Branched Neural Rough Differential Equations的流形与It\^o动力学学习
摘要
本文介绍了一种名为Branched Neural Rough Differential Equations的方法,该方法通过结合粗糙路径理论与神经网络来学习流形和Itô动力学,从而能够对复杂的随机和几何结构进行建模。
arXiv:2606.05272v1 Announce Type: new
摘要:神经粗糙微分方程(NRDEs)在不规则采样下保持准确,同时所需的积分步数远少于标准神经微分方程,它通过对数签名汇总精细采样的驱动信号,并使用对数ODE方法在粗间隔上推进隐藏状态。这种效率依赖于shuffle代数,这是Stratonovich微积分的代数对应。这种依赖意味着NRDEs无法暴露It\^o动力学所需的二次变差项,也无法暴露控制带有联络的流形上It\^o流动的有序协变导数。为了解决这一问题,我们引入了分支神经粗糙微分方程(B-NRDEs),这是一个Hopf代数框架,它将NRDE的对数ODE步骤重新解释为状态空间流形上的几何数值积分,使驱动代数与主控微积分相匹配:Grossman-Larson根树用于欧几里得It\^o动力学,Munthe-Kaas-Wright平面根树用于流形上的有序协变导数,以及经典Stratonovich情况下的shuffle代数。这产生了内在的粗步动力学,精确保持了流形约束。最后,我们引入了一个分支签名核目标函数,通过使二次变差项在训练中可见,实现与It\^o一致的正则匹配。在粗糙Bergomi波动率、sim-to-real $\mathrm{SO}(3)$动力学预测以及SPD协方差动力学上,B-NRDEs提供了一种统一且有效的方法,适用于欧几里得-Stratonovich设定之外的随机和流形值动力学。
查看缓存全文
缓存时间: 2026/06/05 08:09
# 利用分支神经粗糙微分方程学习流形与伊藤动力学
来源:https://arxiv.org/html/2606.05272
## 利用分支\{\}^\{\\mkern\-9\.0mu\\hbox to16\.05pt\{\\vbox to17\.16pt\{\\pgfpicture\\makeatletter\\hbox\{\\quad\\lower\-2\.33311pt\\hbox to0\.0pt\{\\pgfsys@beginscope\\pgfsys@invoke\{ \}\\definecolor\{pgfstrokecolor\}\{rgb\}\{0,0,0\}\\pgfsys@color@rgb@stroke\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\pgfsys@color@rgb@fill\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\pgfsys@setlinewidth\{\\the\\pgflinewidth\}\\pgfsys@invoke\{ \}\\nullfont\\hbox to0\.0pt\{\\pgfsys@beginscope\\pgfsys@invoke\{ \}\{ \{\}\{\{\}\}\{\}\{\{\{\}\} \{\}\{\}\{\}\{\}\{\}\{\}\{\}\{\} \}\{\}\\pgfsys@moveto\{0\.0pt\}\{0\.0pt\}\\pgfsys@moveto\{1\.70709pt\}\{0\.0pt\}\\pgfsys@curveto\{1\.70709pt\}\{0\.94281pt\}\{0\.94281pt\}\{1\.70709pt\}\{0\.0pt\}\{1\.70709pt\}\\pgfsys@curveto\{\-0\.94281pt\}\{1\.70709pt\}\{\-1\.70709pt\}\{0\.94281pt\}\{\-1\.70709pt\}\{0\.0pt\}\\pgfsys@curveto\{\-1\.70709pt\}\{\-0\.94281pt\}\{\-0\.94281pt\}\{\-1\.70709pt\}\{0\.0pt\}\{\-1\.70709pt\}\\pgfsys@curveto\{0\.94281pt\}\{\-1\.70709pt\}\{1\.70709pt\}\{\-0\.94281pt\}\{1\.70709pt\}\{0\.0pt\}\\pgfsys@closepath\\pgfsys@moveto\{0\.0pt\}\{0\.0pt\}\\pgfsys@fillstroke\\pgfsys@invoke\{ \} \{\}\{\{\}\}\{\}\{\{\{\}\} \{\}\{\}\{\}\{\}\{\}\{\}\{\}\{\} \}\{\}\\pgfsys@moveto\{\-5\.69046pt\}\{9\.95863pt\}\\pgfsys@moveto\{\-3\.98337pt\}\{9\.95863pt\}\\pgfsys@curveto\{\-3\.98337pt\}\{10\.90144pt\}\{\-4\.74765pt\}\{11\.66573pt\}\{\-5\.69046pt\}\{11\.66573pt\}\\pgfsys@curveto\{\-6\.63327pt\}\{11\.66573pt\}\{\-7\.39755pt\}\{10\.90144pt\}\{\-7\.39755pt\}\{9\.95863pt\}\\pgfsys@curveto\{\-7\.39755pt\}\{9\.01582pt\}\{\-6\.63327pt\}\{8\.25154pt\}\{\-5\.69046pt\}\{8\.25154pt\}\\pgfsys@curveto\{\-4\.74765pt\}\{8\.25154pt\}\{\-3\.98337pt\}\{9\.01582pt\}\{\-3\.98337pt\}\{9\.95863pt\}\\pgfsys@closepath\\pgfsys@moveto\{\-5\.69046pt\}\{9\.95863pt\}\\pgfsys@fillstroke\\pgfsys@invoke\{ \} \{\}\{\{\}\}\{\}\{\{\{\}\} \{\}\{\}\{\}\{\}\{\}\{\}\{\}\{\} \}\{\}\\pgfsys@moveto\{5\.69046pt\}\{9\.95863pt\}\\pgfsys@moveto\{7\.39755pt\}\{9\.95863pt\}\\pgfsys@curveto\{7\.39755pt\}\{10\.90144pt\}\{6\.63327pt\}\{11\.66573pt\}\{5\.69046pt\}\{11\.66573pt\}\\pgfsys@curveto\{4\.74765pt\}\{11\.66573pt\}\{3\.98337pt\}\{10\.90144pt\}\{3\.98337pt\}\{9\.95863pt\}\\pgfsys@curveto\{3\.98337pt\}\{9\.01582pt\}\{4\.74765pt\}\{8\.25154pt\}\{5\.69046pt\}\{8\.25154pt\}\\pgfsys@curveto\{6\.63327pt\}\{8\.25154pt\}\{7\.39755pt\}\{9\.01582pt\}\{7\.39755pt\}\{9\.95863pt\}\\pgfsys@closepath\\pgfsys@moveto\{5\.69046pt\}\{9\.95863pt\}\\pgfsys@fillstroke\\pgfsys@invoke\{ \} \{\}\{\{\}\}\{\} \{\}\{\}\{\}\\pgfsys@moveto\{0\.0pt\}\{0\.0pt\}\\pgfsys@lineto\{\-5\.69046pt\}\{9\.95863pt\}\\pgfsys@stroke\\pgfsys@invoke\{ \} \{\}\{\{\}\}\{\} \{\}\{\}\{\}\\pgfsys@moveto\{0\.0pt\}\{0\.0pt\}\\pgfsys@lineto\{5\.69046pt\}\{9\.95863pt\}\\pgfsys@stroke\\pgfsys@invoke\{ \} \{\{\}\}\\hbox\{\\hbox\{\{\\pgfsys@beginscope\\pgfsys@invoke\{ \}\{\{\}\{\}\{\{ \{\}\{\}\}\}\{ \{\}\{\}\} \{\{\}\{\{\}\}\}\{\{\}\{\}\}\{\}\{\{\}\{\}\} \{ \}\{\{\{\{\}\}\\pgfsys@beginscope\\pgfsys@invoke\{ \}\\pgfsys@transformcm\{1\.0\}\{0\.0\}\{0\.0\}\{1\.0\}\{2\.53311pt\}\{0\.0pt\}\\pgfsys@invoke\{ \}\\hbox\{\{\\definecolor\{pgfstrokecolor\}\{rgb\}\{0,0,0\}\\pgfsys@color@rgb@stroke\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\pgfsys@color@rgb@fill\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\hbox\{\{$\\scriptstyle\{\}$\}\} \}\}\\pgfsys@invoke\{ \}\\pgfsys@endscope\}\}\} \\pgfsys@invoke\{ \}\\pgfsys@endscope\}\}\} \{\{\}\}\\hbox\{\\hbox\{\{\\pgfsys@beginscope\\pgfsys@invoke\{ \}\{\{\}\{\}\{\{ \{\}\{\}\}\}\{ \{\}\{\}\} \{\{\}\{\{\}\}\}\{\{\}\{\}\}\{\}\{\{\}\{\}\} \{ \}\{\{\{\{\}\}\\pgfsys@beginscope\\pgfsys@invoke\{ \}\\pgfsys@transformcm\{1\.0\}\{0\.0\}\{0\.0\}\{1\.0\}\{\-5\.69046pt\}\{12\.49174pt\}\\pgfsys@invoke\{ \}\\hbox\{\{\\definecolor\{pgfstrokecolor\}\{rgb\}\{0,0,0\}\\pgfsys@color@rgb@stroke\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\pgfsys@color@rgb@fill\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\hbox\{\{$\\scriptstyle\{\}$\}\} \}\}\\pgfsys@invoke\{ \}\\pgfsys@endscope\}\}\} \\pgfsys@invoke\{ \}\\pgfsys@endscope\}\}\} \{\{\}\}\\hbox\{\\hbox\{\{\\pgfsys@beginscope\\pgfsys@invoke\{ \}\{\{\}\{\}\{\{ \{\}\{\}\}\}\{ \{\}\{\}\} \{\{\}\{\{\}\}\}\{\{\}\{\}\}\{\}\{\{\}\{\}\} \{ \}\{\{\{\{\}\}\\pgfsys@beginscope\\pgfsys@invoke\{ \}\\pgfsys@transformcm\{1\.0\}\{0\.0\}\{0\.0\}\{1\.0\}\{5\.69046pt\}\{12\.49174pt\}\\pgfsys@invoke\{ \}\\hbox\{\{\\definecolor\{pgfstrokecolor\}\{rgb\}\{0,0,0\}\\pgfsys@color@rgb@stroke\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\pgfsys@color@rgb@fill\{0\}\{0\}\{0\}\\pgfsys@invoke\{ \}\\hbox\{\{$\\scriptstyle\{\}$\}\} \}\}\\pgfsys@invoke\{ \}\\pgfsys@endscope\}\}\} \\pgfsys@invoke\{ \}\\pgfsys@endscope\}\}\} \} \\pgfsys@invoke\{ \}\\pgfsys@endscope\{\}\{\}\{\}\\hss\}\\pgfsys@discardpath\\pgfsys@invoke\{ \}\\pgfsys@endscope\\hss\}\}\\endpgfpicture\}\}\}神经粗糙微分方程学习流形与伊藤动力学
###### 摘要
神经粗糙微分方程 \(NRDE\) 在不规则采样下仍保持精度,同时所需的积分步数远少于标准神经微分方程。它通过其对数签名对细采样驱动进行总结,并利用对数常微分方程(log-ODE)方法在粗间隔上推进隐状态。这种高效性依赖于洗牌代数,即 Stratonovich 微分的代数对应物。这种依赖意味着 NRDE 无法暴露 Itô 动力学所需的二次变分项,也无法暴露支配具有联络的流形上 Itô 流的有序协变导数。为改善这一状况,我们引入了分支神经粗糙微分方程 \(B\-NRDE\),这是一个霍普夫代数框架,将 NRDE 的 log-ODE 步骤重新解释为状态空间流形上的几何数值积分,使驱动代数与支配微积分类别匹配:格罗斯曼-拉森根树用于欧几里得 Itô 动力学,芒特-卡斯-赖特平面根树用于流形上的有序协变导数,洗牌代数用于经典 Stratonovich 情形。这产生了内在的粗步动力学,能够精确保持流形约束。最后,我们引入一个分支签名核目标函数,通过使二次变分项在训练过程中可见,实现 Itô 一致的法律匹配。在粗糙 Bergomi 波动率、sim-to-real SO(3) 预测和 SPD 协方差动力学中,B\-NRDE 提供了一种统一且有效的方法来处理欧几里得-Stratonovich 设置之外的随机和流形值动力学。
动力学系统,流形学习,微分方程
## 1 引言
从时间序列中学习连续时间动力学是机器学习中的一个基础问题,其应用范围涵盖机器人学(Duong and Atanasov, 2021 (https://arxiv.org/html/2606.05272#bib.bib56); Chee et al., 2022 (https://arxiv.org/html/2606.05272#bib.bib58))、分子动力学(Huang et al., 2023 (https://arxiv.org/html/2606.05272#bib.bib60); Schreiner et al., 2023 (https://arxiv.org/html/2606.05272#bib.bib59))到量化金融(Gierjatowicz et al., 2020 (https://arxiv.org/html/2606.05272#bib.bib62); Issa et al., 2023 (https://arxiv.org/html/2606.05272#bib.bib46))。
神经受控微分方程 \(NCDE\) (Kidger et al., 2020 (https://arxiv.org/html/2606.05272#bib.bib8)) 通过用神经网络参数化受控微分方程的向量场来处理此任务。为了提高可扩展性和对采样率的鲁棒性,神经粗糙微分方程 \(NRDE\) (Morrill et al., 2021b (https://arxiv.org/html/2606.05272#bib.bib3)) 将控制路径提升到其对数的签名(一系列迭代积分),并通过对数常微分方程(log-ODE)方法在更粗的离散化上求解得到的系统(Castell and Gaines, 1996 (https://arxiv.org/html/2606.05272#bib.bib53))。
参见图注
图 1:B\-NRDE 的 log-ODE 方法示意图。控制段 \(X_{s,t}\) 被提升为 \(X^{\mathcal{H}}_{s,t} \in \mathcal{H}\),对应于所选霍普夫代数 \(\mathcal{H} \in \{\operatorname{\mathcal{H}}, \operatorname{\mathcal{H}}_{\mathrm{GL}}, \operatorname{\mathcal{H}}_{\mathrm{MKW}}\}\),然后转换为原始坐标 \(p \in \mathcal{B}^{\mathrm{prim}}_{\mathcal{H}}\) 中的对数签名 \(\lambda_{s,t}\)。切向量场 \(\mathcal{W}\) 通过伪双代数映射 \(F_{\mathcal{W}}\) 提升到状态流形上相应的原始索引向量场。这些向量场组合成 log-ODE 向量场 \(L_{s,t}\),其 ODE 流给出从 \(s\) 到 \(t\) 的局部更新。
然而,几何 NRDE 由几何签名驱动,其坐标满足洗牌积恒等式。这适用于保留通常链式法则的 Stratonovich 积分,但不适用于 Itô 积分。Itô 的乘积法则会产生二次变分修正项,因此 Itô 迭代积分的乘积包含原始张量坐标未表示的二阶项。这限制了在需要适应因果 Itô 建模假设的设置中使用几何签名。在流形上,障碍更为显著。Itô 积分是相对于联络定义的,其展开涉及高阶协变导数。由于这些算子通常不交换,签名代数必须保留它们有序的分支组合,而不是通过洗牌关系来识别它们。
为了解决这些限制,我们引入了 B\-NRDE,一个在 Itô 积分和流形上使用 log-ODE 方法学习动力学的统一框架。通过将控制路径提升到一个由根树构成的霍普夫代数——适用于欧几里得 Itô 微积分的格罗斯曼-拉森代数,或适用于流形的芒特-卡斯-赖特代数,我们推导出一个广义的 NRDE,严格尊重该域的几何和因果约束。关于霍普夫代数的比较,见表 1 (https://arxiv.org/html/2606.05272#S2.T1);关于所提出框架的示意图,见图 1 (https://arxiv.org/html/2606.05272#S1.F1)。我们的主要贡献如下:
1. 1. 我们在格罗斯曼-拉森霍普夫代数 \(\mathcal{H}_{\text{GL}}\) 中对路径签名进行建模,其根树基表示 Itô 型迭代积分。随后,我们引入了第一个利用芒特-卡斯-赖特平面根树霍普夫代数 \(\mathcal{H}_{\text{MKW}}\) 来严格强制 Itô 型动力学系统流形约束的神经动力学模型。
2. 2. 我们通过伪双代数映射 (Kern and Lyons, 2023 (https://arxiv.org/html/2606.05272#bib.bib6)) 对上述方法进行统一,该映射将霍普夫代数结构转换为目标流形上的学习向量场和微分算子。这为具有联络的流形上的 Stratonovich 和 Itô 动力学提供了一个通用的 log-ODE 表述。在本工作中,我们在齐性空间上实例化数值求解器,切向量用标架或李代数坐标表示,并通过群作用进行积分。
3. 3. 我们通过在欧几里得空间和流形上开发一个分支签名核目标函数,实现了 Itô 一致的神经动力学训练。
4. 4. 我们发布了 Roughrax (https://github.com/luke-a-thompson/Roughrax),这是一个用于分支粗糙路径的 JAX 包,以及用于流形上粗糙微分方程 \(RDE\) 的可微分数值求解方法。
## 2 预备知识
本节中,我们首先回顾神经 CDE 和 RDE 的标准表述,以建立欧几里得基线(第 2.1 节 (https://arxiv.org/html/2606.05272#S2.SS1))。然后讨论将 Log-ODE 框架扩展到非欧几里得和 Itô 设置所需的机制。我们首先介绍粗糙路径霍普夫代数 (第 2.2 节 (https://arxiv.org/html/2606.05272#S2.SS2)),然后介绍将代数元素发送到流形 \(\mathcal{M}\) 上微分算子的伪双代数映射 (第 2.3 节 (https://arxiv.org/html/2606.05272#S2.SS3))。
### 2.1 神经受控和粗糙微分方程
给定一个可能不规则的时序数据 \(\big((t_0,x_0),\dots,(t_n,x_n)\big)\),其中观测值 \(x_i \in \mathbb{R}^d\)。我们构造一个连续插值 \(X: [t_0,t_n] \to \mathbb{R}^d\),使得 \(X_{t_i}=x_i\)。
神经受控微分方程。 NCDE (Kidger et al., 2020 (https://arxiv.org/html/2606.05272#bib.bib8)) 演化一个隐状态 \(h_t \in \mathbb{R}^u\),由路径 \(X\) 驱动。设 \(\xi_\phi: \mathbb{R}^d \to \mathbb{R}^u\) 为编码器,\(\ell_\psi: \mathbb{R}^u \to \mathbb{R}^w\) 为输出网络,\(g_\theta: \mathbb{R}^u \to \mathbb{R}^{u\times d}\) 为向量场参数化。前向传播由黎曼-斯蒂尔杰斯积分定义:
\[
h_t = h_{t_0} + \int_{t_0}^t g_\theta(h_s) \, dX_s,
\tag{1}
\]
其中初始隐状态 \(h_{t_0} = \xi_\phi(X_{t_0})\),输出为 \(y_t = \ell_\psi(h_t)\),\(g_\theta(h_s) dX_s\) 表示矩阵-向量乘法。此表述允许隐状态对输入数据做出连续响应。
神经粗糙微分方程。 尽管表达能力很强,但 NCDE 对于长序列代价高昂。NRDE (Morrill et al., 2021b (https://arxiv.org/html/2606.05272#bib.bib3)) 通过应用 log-ODE 方法降低了这个成本:在每个窗口 \(I_j = [t_j, t_{j+1}]\) 上,路径 \(X\) 由其对数签名 \(\lambda_j\) 总结。这个对数签名确定了一个自治向量场,记为 \(\tilde{g}_{\theta,\lambda_j}\),通过对基础神经向量场应用 log-ODE 提升得到。然后隐状态通过常微分方程 \(ODE\) 推进:
\[
h_t = h_{t_j} + \int_{t_j}^t \tilde{g}_{\theta,\lambda_j}(h_s) \, ds, \quad t \in I_j.
\tag{2}
\]
这里,\(\lambda_j\) 设置了在 \(I_j\) 上求解的 ODE 的系数,而不是作为新的路径微分,从而产生允许更大步长的高阶近似。
### 2.2 粗糙路径霍普夫代数
霍普夫代数组织迭代积分的组合结构以及计算所需的乘积恒等式。表 1 (https://arxiv.org/html/2606.05272#S2.T1) 总结了每个霍普夫代数支持的机制范围。
###### 定义 2.1 (霍普夫代数与原始元)。 令 \(\mathcal{H} = (H, \star, \eta, \Delta, \varepsilon, S)\) 为向量空间 \(H\) 上的一个霍普夫代数,具有乘积 \(\star: H \otimes H \to H\) 和余积 \(\Delta: H \to H \otimes H\);我们用 \(\mathcal{B}_{\mathcal{H}}\) 表示 \(H\) 的一个基,并记 \(\operatorname{Prim}(\mathcal{H}) \coloneqq \{ p \in H : \Delta p = p \otimes 1 + 1 \otimes p \}\),其中选取一个原始基 \(\mathcal{B}^{\mathrm{prim}}_{\mathcal{H}} \subset \operatorname{Prim}(\mathcal{H})\)。下文省略 \(\eta\)、\(\varepsilon\) 和 \(S\),因为只有 \(\star\) 和 \(\Delta\) 与我们的结构直接相关。
表 1:每个霍普夫代数所编码的积分机制概述及其在神经微分方程中的首次应用。
##### Stratonovich (几何) 签名与 \(\mathcal{H}\)。 对于一个 \(d\) 维控制路径 \(X = (X^{(1)}, \dots, X^{(d)})\),截断的几何签名以由 \(e_{i_1} \otimes \cdots \otimes e_{i_m}\) 索引的词坐标收集其迭代 Stratonovich 积分。我们采用标准张量代数的约定,其中签名相似文章
通过监督投影流形学习的李群嵌入神经动力学规划
本文提出了一种李群嵌入动态神经网络(LieEDNN)及其基于梯度下降和光滑流形度量投影的学习算法,能够在SO(3)和SE(3)等李群上实现稳定动力学,用于机器人学和控制应用。
齐性空间上的可转向神经常微分方程
本文介绍了齐性空间上的可转向神经常微分方程,为学习连续时间的等变动力学提供了一个几何框架。
基于物理建模的神经网络
本文介绍了动力学物理建模神经网络(DynPMNNs),这是一种连续时间深度学习架构,其中隐藏层由常微分方程定义。该方法基于再生核巴拿赫空间,具有生物启发性,在加州房屋数据集上展现出与标准神经ODE相当的性能,且参数更少。
分叉附近的状态空间NTK坍缩
本文发展了动力模型分叉附近梯度下降的局部理论,表明状态空间神经正切核坍缩为秩一算子,主导学习动力学,使优化有效低维且可从规范形式预测。
Mamba辅助的非马尔可夫闭合用于降阶建模
提出了Mamba辅助闭合(MAC)框架,这是一种基于Mamba的序列模型,用于高维动力系统降阶建模中的非马尔可夫闭合,在Burgers方程和Lorenz '96系统上优于基于GRU和马尔可夫的方法。