冲击波理论与人工神经网络对称约化随机梯度下降之间的联系

arXiv cs.LG 论文

摘要

本文在冲击波理论与随机梯度下降的对称商学习动力学之间建立了数学上严谨的联系,表明在对称约化和粗粒化后,动力学满足粘性Hamilton-Jacobi方程和Burgers型方程,激波形成时间由损失曲率控制。

arXiv:2606.18303v1 公告类型:新 摘要:我们发展了冲击波理论与随机梯度下降的对称商学习动力学之间的数学显式联系,借助微分几何、李群理论和流体力学。具体而言,在商化参数对称性并应用局部熵粗粒化之后,有效动力学满足商流形上的粘性Hamilton--Jacobi方程。此外,在原始参数动力学可被商空间上的梯度场概括的假设下,粗粒化损失函数的梯度服从Burgers型方程,并且激波形成可以被严格证明。我们将我们的理论应用于多层感知器、卷积神经网络、Transformer和平均场网络,并表明它们满足Hamilton--Jacobi或Burgers型方程。我们推测该框架还能为深度学习提供实际诊断。在诸如Transformer等架构中,原始参数范数常因对称冗余而失真,因此可能具有误导性,而对称修正的商可观测量为监测、预测和控制训练阶段转换提供了有原则的基础。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:40

# 激波理论与人工神经网络对称约化随机梯度下降之间的联系
来源:https://arxiv.org/html/2606.18303
11institutetext:NEC公司11email:miyagawataik@nec\.com###### 摘要

我们基于微分几何、李群理论和流体力学,建立了激波理论与随机梯度下降的对称商学习动力学之间的显式数学联系。具体而言,在商化参数对称性并应用局部熵粗粒化后,商流形上的有效动力学满足一个粘性 Hamilton–Jacobi 方程。此外,假设原始参数动力学可由商空间上的梯度场概括,则粗粒化损失函数的梯度服从 Burgers 型方程,并且可以严格证明激波的形成。我们将该理论应用于多层感知机、卷积神经网络、Transformer 和平均场网络,并证明它们满足 Hamilton–Jacobi 或 Burgers 型方程。我们推测该框架也能为深度学习提供实用的诊断工具。在像 Transformer 这样的架构中,原始参数范数常常因对称冗余而失真,可能具有误导性,而经过对称校正的商观测量为监控、预测和控制训练阶段转变提供了原则性基础。

## 1 引言

结合以下见解,我们提出激波理论与随机梯度下降 (SGD) 的对称商学习动力学之间的对应关系。流体力学中的激波受非线性输运、经典正则性丧失以及熵条件弱解选取的支配。而深度学习通常被表述为一个高维随机优化问题。几个已建立的数学事实暗示了一条有原则的桥梁。首先,正齐次神经网络(如 ReLU 网络)具有正缩放和置换对称性,因此物理上重要的观测量通常存在于商空间上,而非原始参数坐标中\[1 (https://arxiv.org/html/2606.18303#bib.bib1),2 (https://arxiv.org/html/2606.18303#bib.bib2)\]。其次,离散时间 SGD 可以用随机修正方程和随机修正流的形式进行连续时间近似\[4 (https://arxiv.org/html/2606.18303#bib.bib4),5 (https://arxiv.org/html/2606.18303#bib.bib5)\]。第三,非凸损失的局部熵松弛受粘性 Hamilton–Jacobi 方程的支配\[3 (https://arxiv.org/html/2606.18303#bib.bib3)\]。第四,在宽网络极限下,SGD 诱导扩散方程,而非简单的有限维常微分方程\[7 (https://arxiv.org/html/2606.18303#bib.bib7),8 (https://arxiv.org/html/2606.18303#bib.bib8)\]。

本文的目的是将这些要素在一个统一的严格架构中联系起来。111我们的立场是有意保守的:我们不声称通用的神经网络参数满足 Burgers 方程。我们声称对称商加上局部熵粗粒化自然会在商空间上产生一个粘性 Hamilton–Jacobi 方程。此外,我们证明,如果商空间上的梯度场概括了原始参数空间上的动力学(本文中称为一维集体坐标的封闭性假设),那么商化后的梯度场服从 Burgers 型方程,其激波形成时间由粗粒化损失函数的负曲率控制。这为训练阶段的突然变化提供了一个精确的数学重新解释:在商描述中,这些变化表现为粗粒化平均梯度中的激波型奇点或粘性激波层。

除了与 Hamilton–Jacobi 和 Burgers 型方程之间的数学对应关系之外,我们推测当前框架对现代深度学习系统具有实际意义。主要观点是,该理论指出了应监控哪些变量、哪些量应被解释为状态变化的早期预警信号,以及哪些超参数可作为平滑或锐化此类转变的控制旋钮。

## 2 预备知识

### 2.1 定义

参见图注图 1:符号。令Θ⊂RdΘ\\Theta\\subset\\mathbb\{R\}^\{d\_\{\\Theta\}\}是一个光滑参数流形,令一个李群或有限群GG在Θ\\Theta上光滑作用。我们假设存在一个开正则层Θreg⊂Θ\\Theta\_\{\\mathrm\{reg\}\}\\subset\\Theta,该作用在其上是自由且正常的。那么,商空间M:=Θreg/GM:=\\Theta\_\{\\mathrm\{reg\}\}/G形成一个光滑流形,商映射π:Θreg→M\\pi:\\Theta\_\{\\mathrm\{reg\}\}\\to M是一个光滑浸没。在有限群的情况下,全局商空间可能是一个轨形,但在每个主层上,局部流形图像是有效的。令L:Θreg→RL:\\Theta\_\{\\mathrm\{reg\}\}\\to\\mathbb\{R\}是一个光滑的经验损失,满足对所有g∈Gg\\in G和θ∈Θreg\\theta\\in\\Theta\_\{\\mathrm\{reg\}\}有L\(g·θ\)=L\(θ\)L\(g\\cdot\\theta\)=L\(\\theta\)。那么,LL下降为一个光滑函数,称为有效势能,U:M→RU:M\\to\\mathbb\{R\}满足L=U∘πL=U\\circ\\pi。我们考虑随机迭代θn\+1=θn−η\(∇L\(θn\)\+Mn\+1\),\\theta\_\{n\+1\}=\\theta\_\{n\}\-\\eta\\bigl\(\\nabla L\(\\theta\_\{n\}\)\+M\_\{n\+1\}\\bigr\),其中η\>0\\eta\>0是学习率,\(Mn\+1\)n≥0\(M\_\{n\+1\}\)\_\{n\\geq 0\}\)是适应于滤子\(Fn\)n≥0\(\\mathcal\{F\}\_\{n\}\)\_\{n\\geq 0\}\)的鞅差序列,即E\[Mn\+1∣Fn\]=0。\\mathbb\{E\}\[M\_\{n\+1\}\\mid\\mathcal\{F\}\_\{n\}\]=0。我们始终假设在Θreg\\Theta\_\{\\mathrm\{reg\}\}\)的紧子集上,E\[∥Mn\+1∥3∣Fn\]≤C\\mathbb\{E\}\\bigl\[\\lVert M\_\{n\+1\}\\rVert^\{3\}\\mid\\mathcal\{F\}\_\{n\}\\bigr\]\\leq C,其中CC为某个局部常数。我们将重复使用标准的 Hopf–Cole 变换222这是一种变量变换,将具有二次非线性的特殊类型抛物型偏微分方程 (PDE) 转化为线性热方程。,用于粘性 Burgers 方程和粘性 Hamilton–Jacobi 方程,以及用于无粘 Burgers 方程的经典特征线理论;标准参考文献包括 Evans 和 LeVeque\[10 (https://arxiv.org/html/2606.18303#bib.bib10),11 (https://arxiv.org/html/2606.18303#bib.bib11)\]。

### 2.2 商约化

我们首先证明,在局部可投影性假设下,离散时间 SGD 递归在商图下降为一个封闭的随机递归,其漂移和条件协方差仅依赖于商状态。这是基本的约化,使得我们能够用对称商空间上的有效动力学替代原始参数动力学。

###### 假设 2.1 (漂移和协方差的局部可投影性)

令χ:U⊂M→Rm\\chi:U\\subset M\\to\\mathbb\{R\}^\{m\}是一个光滑图,并设Φ:=χ∘π\\Phi:=\\chi\\circ\\pi。假设轨迹几乎必然保持在π−1\(U\)\\pi^\{\-1\}\(U\)内,且Φ\\Phi在相关紧子集上是C3C^\{3\}的。进一步假设存在局部有界函数b:χ\(U\)→Rmb:\\chi\(U\)\\to\\mathbb\{R\}^\{m\}和A:χ\(U\)→Rm×mA:\\chi\(U\)\\to\\mathbb\{R\}^\{m\\times m\},使得几乎必然地,DΦ\(θn\)∇L\(θn\)=b\(Yn\)D\\Phi\(\\theta\_\{n\}\)\\nabla L\(\\theta\_\{n\}\)=b\(Y\_\{n\}\)(本文称为漂移),其中Yn:=Φ\(θn\),Y\_\{n\}:=\\Phi\(\\theta\_\{n\}\),且Cov\(DΦ\(θn\)Mn\+1∣Fn\)=A\(Yn\)。\\mathrm\{Cov\}\\bigl\(D\\Phi\(\\theta\_\{n\}\)M\_\{n\+1\}\\mid\\mathcal\{F\}\_\{n\}\\bigr\)=A\(Y\_\{n\}\)。333此处,DΦ\(θ\)D\\Phi\(\\theta\)表示商-图映射Φ\\Phi在θ\\theta处的导数(雅可比矩阵),它将参数空间无穷小位移线性映射为商坐标位移。相应地,DΦ\(θn\)∇L\(θn\)D\\Phi\(\\theta\_\{n\}\)\\nabla L\(\\theta\_\{n\}\)是投影到商坐标中的梯度,而DΦ\(θn\)Mn\+1D\\Phi\(\\theta\_\{n\}\)M\_\{n\+1\}是投影到商坐标中的噪声。

假设 2.1 (https://arxiv.org/html/2606.18303#S2.Thmtheorem1) 要求在局部商图中,投影梯度漂移444漂移是随机更新的确定性均值分量,即平均随机波动后的平均运动方向。b\(Yn\)b\(Y\_\{n\}\)和投影鞅噪声的条件协方差仅依赖于商状态YnY\_\{n\}。因此,随机演化在商变量层面上是封闭的:同一对称轨道的不同代表在投影后诱导出相同的有效一阶和二阶动力学。555ReLU 网络是考虑假设 1 的自然模型类别,因为它们确实具有相关的对称性。然而,在完全一般的情况下,它们并不自动满足假设 1。在正则层上,如果投影漂移和协方差仅作为商状态的函数而封闭,则它们在局部上满足该假设。

###### 定理 2.2 (离散时间 SGD 的局部商约化)

在假设 2.1 (https://arxiv.org/html/2606.18303#S2.Thmtheorem1) 下,存在随机变量Ξn\+1\\Xi\_\{n\+1\}和RnR\_\{n\},使得
Yn\+1=Yn−ηb\(Yn\)\+ηΞn\+1\+η2Rn,
Y\_\{n\+1\}=Y\_\{n\}\-\\eta b\(Y\_\{n\}\)\+\\eta\\Xi\_\{n\+1\}\+\\eta^\{2\}R\_\{n\},
其中E\[Ξn\+1∣Fn\]=0\\mathbb\{E\}\[\\Xi\_\{n\+1\}\\mid\\mathcal\{F\}\_\{n\}\]=0,Cov\(Ξn\+1∣Fn\)=A\(Yn\),\\mathrm\{Cov\}\(\\Xi\_\{n\+1\}\\mid\\mathcal\{F\}\_\{n\}\)=A\(Y\_\{n\}\),且RnR\_\{n\}在条件期望下局部有界。

###### 证明

令Δn:=θn\+1−θn=−η\(∇L\(θn\)\+Mn\+1\)。\\Delta\_\{n\}:=\\theta\_\{n\+1\}\-\\theta\_\{n\}=\-\\eta\\bigl\(\\nabla L\(\\theta\_\{n\}\)\+M\_\{n\+1\}\\bigr\)。带积分余项的泰勒定理给出
Φ\(θn\+Δn\)=Φ\(θn\)\+DΦ\(θn\)\[Δn\]\+12D2Φ\(θn\)\[Δn,Δn\]\+Rn\+1,
\\Phi\(\\theta\_\{n\}\+\\Delta\_\{n\}\)=\\Phi\(\\theta\_\{n\}\)\+D\\Phi\(\\theta\_\{n\}\)\[\\Delta\_\{n\}\]\+\\frac\{1\}\{2\}D^\{2\}\\Phi\(\\theta\_\{n\}\)\[\\Delta\_\{n\},\\Delta\_\{n\}\]\+\\mathcal\{R\}\_\{n\+1\},
其中,对于连接θn\\theta\_\{n\}和θn\+Δn\\theta\_\{n\}\+\\Delta\_\{n\}\)的线段上的某个随机点,有∥Rn\+1∥≤C∥Δn∥3。\\lVert\\mathcal\{R\}\_\{n\+1\}\\rVert\\leq C\\lVert\\Delta\_\{n\}\\rVert^\{3\}。由于局部地E\[∥Mn\+1∥3∣Fn\]≤C\\mathbb\{E\}\[\\lVert M\_\{n\+1\}\\rVert^\{3\}\\mid\\mathcal\{F\}\_\{n\}\]\\leq C,我们有E\[∥Δn∥3∣Fn\]=O\(η3\)\\mathbb\{E\}\[\\lVert\\Delta\_\{n\}\\rVert^\{3\}\\mid\\mathcal\{F\}\_\{n\}\]=O\(\\eta^\{3\}\),从而E\[∥Rn\+1∥∣Fn\]=O\(η3\)。\\mathbb\{E\}\[\\lVert\\mathcal\{R\}\_\{n\+1\}\\rVert\\mid\\mathcal\{F\}\_\{n\}\]=O\(\\eta^\{3\}\)。此外,D2Φ\(θn\)\[Δn,Δn\]=OL1\(η2\)D^\{2\}\\Phi\(\\theta\_\{n\}\)\[\\Delta\_\{n\},\\Delta\_\{n\}\]=O\_\{L^\{1\}\}\(\\eta^\{2\}\)局部成立,因为Δn=O\(η\)\\Delta\_\{n\}=O\(\\eta\)在条件L2L^\{2\}意义下。

因此,

Yn\+1−Yn\\displaystyle Y\_\{n\+1\}\-Y\_\{n\}=DΦ\(θn\)\[Δn\]\+OL1\(η2\)\\displaystyle=D\\Phi\(\\theta\_\{n\}\)\[\\Delta\_\{n\}\]\+O\_\{L^\{1\}\}\(\\eta^\{2\}\)=−ηDΦ\(θn\)\[∇L\(θn\)\]−ηDΦ\(θn\)\[Mn\+1\]\+OL1\(η2\)。\\displaystyle=\-\\eta D\\Phi\(\\theta\_\{n\}\)\[\\nabla L\(\\theta\_\{n\)\]\-\\eta D\\Phi\(\\theta\_\{n\}\)\[M\_\{n\+1\}\]\+O\_\{L^\{1\}\}\(\\eta^\{2\}\)。定义Ξn\+1:=−DΦ\(θn\)\[Mn\+1\]。\\Xi\_\{n\+1\}:=\-D\\Phi\(\\theta\_\{n\}\)\[M\_\{n\+1\}\]。由于DΦ\(θn\)D\\Phi\(\\theta\_\{n\}\)是Fn\\mathcal\{F\}\_\{n\}\)可测的,且E\[Mn\+1∣Fn\]=0\\mathbb\{E\}\[M\_\{n\+1\}\\mid\\mathcal\{F\}\_\{n\}\]=0,我们得到E\[Ξn\+1∣Fn\]=0。\\mathbb\{E\}\[\\Xi\_\{n\+1\}\\mid\\mathcal\{F\}\_\{n\}\]=0。根据假设 2.1 (https://arxiv.org/html/2606.18303#S2.Thmtheorem1),几乎必然有DΦ\(θn\)\[∇L\(θn\)\]=b\(Yn\)D\\Phi\(\\theta\_\{n\}\)\[\\nabla L\(\\theta\_\{n\)\]=b\(Y\_\{n\}\),且Cov\(Ξn\+1∣Fn\)=A\(Yn\)。\\mathrm\{Cov\}\(\\Xi\_\{n\+1\}\\mid\\mathcal\{F\}\_\{n\}\)=A\(Y\_\{n\}\)。将OL1\(η2\)O\_\{L^\{1\}\}\(\\eta^\{2\}\)项合并为η2Rn\\eta^\{2\}R\_\{n\}\)即得所要求递归。 ∎

如果图固定且系数足够正则,则上述递归在ηn≒t\\eta n\\fallingdotseq t的意义下允许标准的弱连续时间近似:
dYt=−b\(Yt\)dt\+ησ\(Yt\)dBt,
dY\_\{t\}=\-b\(Y\_\{t\}\)\\,dt\+\\sqrt\{\\eta\}\,\\sigma\(Y\_\{t\}\)\\,dB\_\{t\},
其中σσ⊤=A,\\sigma\\sigma^\{\\top\}=A,这是 SGD 的对称约化版随机修正方程和随机修正流\[4 (https://arxiv.org/html/2606.18303#bib.bib4),5 (https://arxiv.org/html/2606.18303#bib.bib5)\]。该定理的根本重要性贯穿全文。

### 2.3 粗粒化,商局部熵

令\(M,g\)\(M,g\)是一个完备的黎曼流形,其 Laplace–Beltrami 算子为ΔM\\Delta\_\{M\}。666ΔM\\Delta\_\{M\}表示商黎曼流形\(M,g\)\(M,g\)上的 Laplace–Beltrami 算子,即几何拉普拉斯算子ΔMf=divg⁡\(grad⁡f\)\\Delta\_\{M\}f=\\operatorname\{div\}\_\{g\}\(\\operatorname\{grad\}f\),控制MM上的扩散。令U:M→RU:M\\to\\mathbb\{R\}是商空间上的一个光滑有效势能,或等价地,一个正则化的有效损失函数。定义热半群Pt:=et2ΔM。P\_\{t\}:=e^\{\\frac\{t\}\{2\}\\Delta\_\{M\}\}。对于粘性参数ν\>0\\nu\>0和粗粒化尺度τ≥0\\tau\\geq 0,定义局部熵正则化
uν\(τ,q\):=−νlog⁡\(Pντe−U/ν\(q\)\),
u^\{\\nu\}\(\\tau,q\):=\-\\nu\\log\\bigl\(P\_\{\\nu\\tau\}e^\{\-U/\\nu\}(q)\\bigr\),
其中q∈Mq\\in M。粗粒化指的是将原始参数动力学替换为在对称商化后并在对称商上进行局部熵平滑后得到的有效动力学。离散 SGD 时间nn和连续热时间tt通过缩放关系ηn≒t=ντ\\eta n\\fallingdotseq t=\\nu\\tau 联系起来,其中ν\\nu表示粘性,等价于粗粒化尺度,而τ\\tau是一个连续的归一化粗粒化参数。

## 3 Hamilton–Jacobi 方程

我们提出,对称商加上局部熵粗粒化会在商空间上产生一个粘性 Hamilton–Jacobi 方程:

###### 定理 3.1 (商 Hamilton–Jacobi 方程)

假设U∈C2\(M\)U\\in C^\{2\}\(M\),假设对于t≥0t\\geq 0,Pte−U/νP\_\{t\}e^\{\-U/\\nu\}严格为正,且假设函数w\(τ,q\):=Pντe−U/ν\(q\)w\(\\tau,q\):=P\_\{\\nu\\tau\}e^\{\-U/\\nu\}(q)属于C1,2\(\(0,∞\)×M\)C^\{1,2\}\(\(0,\\infty\)\\times M\),并逐点求解热方程:∂τw=ν2ΔMw\\partial\_\{\\tau\}w=\\frac\{\\nu\}\{2\}\\Delta\_\{M\}w,且w\(0,q\)=e−U\(q\)/ν。w\(0,q\)=e^\{\-U\(q\)/\\nu\}。777如果PtP\_\{t\}是由12ΔM\\frac\{1\}\{2\}\\Delta\_\{M\}生成的热半群,且所需的正则性成立,则w\(τ,q\)=Pντe−U/ν\(q\)w\(\\tau,q\)=P\_\{\\nu\\tau\}e^\{\-U/\\nu\}(q)自动满足∂τw=ν2ΔMw\\partial\_\{\\tau\}w=\\frac\{\\nu\}\{2\}\\Delta\_\{M\}w。那么,由uν\(τ,q\)=−νlog⁡w\(τ,q\)u^\{\\nu\}\(\\tau,q\)=\-\\nu\\log w\(\\tau,q\)定义的函数uνu^\{\\nu\}求解
∂τuν\+12∥graduν∥g2=ν2ΔMuν,
\\partial\_\{\\tau\}u^\{\\nu\}\+\\frac\{1\}\{2\}\\lVert\\mathrm\{grad\}u^\{\\nu\}\\rVert\_\{g\}^\{2\}=\\frac\{\\nu\}\{2\}\\Delta\_\{M\}u^\{\\nu\},
uν\(0,q\)=U\(q\)。
u^\{\\nu\}\(0,q\)=U\(q\)。

###### 证明

由于w\>0w\>0,对数是良好定义的。通过微分,
∂τuν=−ν∂τww=−ν22ΔMww。
\\partial\_\{\\tau\}u^\{\\nu\}=\-\\nu\\frac\{\\partial\_\{\\tau\}w\}\{w\}=\-\\frac\{\\nu^\{2\}\}\{2\}\\frac\{\\Delta\_\{M\}w\}\{w\}。
同样地,
graduν=−νgradww,∥graduν∥g2=ν2∥gradw∥g2w2。
\\mathrm\{grad\}u^\{\\nu\}=\-\\nu\\frac\{\\mathrm\{grad\}w\}\{w\},\\qquad\\lVert\\mathrm\{grad\}u^\{\\nu\}\\rVert\_\{g\}^\{2\}=\\nu^\{2\}\\frac\{\\lVert\\mathrm\{grad\}w\\rVert\_\{g\}^\{2\}\}\{w^\{2\}\}。
利用恒等式
ΔM\(log⁡w\)=ΔMww−∥gradw∥g2w2,
\\Delta\_\{M\}\(\\log w\)=\\frac\{\\Delta\_\{M\}w\}\{w\}\-\\frac\{\\lVert\\mathrm\{grad\}w\\rVert\_\{g\}^\{2\}\}\{w^\{2\}\},
我们得到
ΔMuν=−νΔMww−ν∥gradw∥g2w2。

相似文章

大步长梯度下降恢复多路径深度线性网络中的对称性

arXiv cs.LG

本文证明,使用大步长的离散梯度下降能够恢复多路径深度线性网络中的对称性,这与梯度流所预测的对称性破缺相反,并导致跨路径的信号重新平衡。作者从理论上证明,平衡解比稀疏解更平坦(锐度更低),且大的学习率驱动网络朝着稳定、平衡的配置发展。

分叉附近的状态空间NTK坍缩

arXiv cs.LG

本文发展了动力模型分叉附近梯度下降的局部理论,表明状态空间神经正切核坍缩为秩一算子,主导学习动力学,使优化有效低维且可从规范形式预测。

耦合梯度下降中瞬态放大的伪谱界

arXiv cs.LG

本文针对耦合梯度下降中的块三角Jacobian矩阵建立了精确的伪谱理论,证明了Kreiss常数界并给出了迭代复杂度结果。研究揭示了与双层优化、双时间尺度随机逼近以及GAN训练相关的非渐近、实例相关的瞬态放大现象。

深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。