深度学习的哈密顿-雅可比理论

arXiv cs.LG 论文

摘要

本文建立了神经网络训练与哈密顿-雅可比初值问题之间的精确对应关系,通过一个形变参数统一了深度学习架构。

arXiv:2605.28983v1 Announce Type: new \n摘要:在本文中,我们将神经网络的训练精确地等同于对哈密顿-雅可比初值问题的搜索:每个梯度步选择粘性哈密顿-雅可比方程的初始数据,其Hopf-Cole传播子最适合观测结果;在推理时,输入是评估该解的空间点,而初始条件已编码在权重中。该对应对于log-sum-exp层是精确的,对于更广泛的架构(残差网络、Transformer、递归架构(RNN、LSTM、SSM))是结构性的,它们离散化同一类哈密顿-雅可比方程,但具有依赖于架构的哈密顿量和粘性。单个形变参数$\\varepsilon$在一个在Lipschitz条件下封闭的交换图中统一了所有四个视角(网络、热带代数、粘性PDE、凸优化)。定量结果包括:固定$t$时的极小极大最优泛化率$O(n^{-1/(d+2)})$;由$\\varepsilon$控制的对抗鲁棒性;反向传播作为残差网络哈密顿系统的共态方程(庞特里亚金最大值原理);通过PDE求积与数据内在维度一致的标度指数;以及闭式$O(N)$影响函数(softmax归因权重$\\pi_j$),其熵景观随着$\\varepsilon$增加经历折叠分岔,每个分岔合并归因流域。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:14

# 深度学习的哈密顿-雅可比理论  
来源:https://arxiv.org/html/2605.28983  

何塞·玛丽·安东尼奥·米诺萨¹,埃里卡·菲尔·T·莱加拉¹²,克里斯托弗·P·蒙特罗拉²  
1 菲律宾人工智能研究中心  
2 亚洲管理学院  

###### 摘要  
本文确切地将神经网络训练识别为对哈密顿-雅可比初值问题的搜索:每个梯度步长选择粘性哈密顿-雅可比方程的初始数据,其Hopf-Cole传播子最佳拟合观测值;在推理时,输入是求解该方程的空间点,而初始条件已编码在权重中。该对应关系对于log-sum-exp层是精确的,对于更广泛的架构(残差网络、Transformer和循环架构(RNN、LSTM、SSM))是结构性的——它们均离散化同一类哈密顿-雅可比方程,但具有依赖于架构的哈密顿量和粘性。单一变形参数ε统一了所有四个视角(网络、热带代数、粘性PDE、凸优化),形成一个在Lipschitz条件下封闭的交换图。定量结果包括:固定t时的极小极大最优泛化率O(n^{-1/(d+2)});由ε控制的对抗鲁棒性;反向传播作为残差网络哈密顿系统的协态方程(庞特里亚金最大值原理);通过PDE求积得到与数据本征维度一致的标度指数;以及一个闭式O(N)影响函数(softmax归因权重π_j),其熵景观随ε增大发生折叠分岔,每次合并一个归因盆地。  

## 1 引言  

神经网络求解什么方程?传统上问题的方向相反:给定一个偏微分方程,设计一个网络来逼近其解(Han等人,2018)。而在这里,一个训练好的网络本身就是哈密顿-雅可比方程,问题在于它是哪一个。关键在于单一变形参数ε和超离散化(Tokihiro等人,1996):精确的极限过程ε→0在两个代数世界之间转换。在ε=0时,加法是max,乘法是+(热带半环);在ε>0时,恢复普通算术,同一对象作为粘性PDE的解算子重现。这一过程不是近似,而是精确的半环同态,即Maslov去量子化(Litvinov,2007)。实现这一点的数学对象是具有log-sum-exp激活的层:  

f_ε(x) = ε log ∑_{j=1}^N exp((W_j·x + b_j)/ε). (1)  

(1)式的代数结构由其热带极限固定。在ε=0时,(1)式坍缩为max_j(W_j·x + b_j),即Hopf-Lax公式和一个凸优化问题。极限过程ε→0是Maslov去量子化(Litvinov,2007):从(R, +, ×)到(R, max, +)的精确半环同态,而非数值近似。将ε提升至零以上逆转此极限,将热带机器转换为光滑层(1);Hopf-Cole线性化(Hopf,1950)则将(1)式精确识别为粘性哈密顿-雅可比方程的热方程传播子(定理4.1)。权重编码初始数据,架构编码哈密顿量,前向传播在查询点x处评估该PDE解。参数ε同时作为softmax温度、PDE粘性和凸正则化强度;定理7.1表明这些角色是同一的而非巧合。  

#### 贡献。  
本文的贡献在于**统一性**:各个独立成分(Maslov去量子化(Litvinov,2007)、Hopf-Cole线性化(Hopf,1950)、ResNet-as-ODE(E,2017;Chen等人,2018)、伴随方法(Chen等人,2018)、标度律(Kaplan等人,2020))均为已知,但将它们置于单一参数ε下,则得到一个交换图以及单独任何成分都无法推出的定量结果。具体而言,本文建立:  

1. (i) LSE激活是热带max运算的光滑变形;极限ε→0是从(R, +, ×)到(R, max, +)的精确半环同态(定理3.1)。  
2. (ii) 每个LSE激活的前馈层精确编码离散测度下粘性哈密顿-雅可比PDE的Hopf-Cole解(定理4.1);Transformer注意力是吉布斯测度下的期望值向量(命题H.9);深度网络在点估值复合下对应于PDE半群的结构。热带极限ε→0恢复Hopf-Lax下确界卷积(定理5.1),同时是一个线性规划和一个MASO;残差网络和循环架构(RNN、LSTM、SSM)离散化具有与架构相关粘性的ODE特征(命题5.2、5.4)。  
3. (iii) 单一参数ε索引同一对象的四个视角(神经网络、热带代数、PDE、凸优化),所得的交换图(定理7.1)在Lipschitz g和凸H下封闭。  
4. (iv) 该框架产生可操作的设计原则:由宽度和数据维度确定的最优温度ε^* ≍ N^{-1/d}达到极小极大率O(n^{-1/(d+2)})(定理8.1);对抗鲁棒性由ε可证明地控制(推论8.2);反向传播是残差网络哈密顿系统的协态方程(定理8.4);该框架可扩展至可学习二次型H_θ(p)=p^T A_θ p(定理4.4)。  
5. (v) softmax权重π_j是闭式O(N)影响函数,具有精确标签敏感性∂f̂/∂g_j = π_j (1 + (f̂ - g_j)/ε),无需Hessian求逆;归因熵景观H(π)随ε增大发生折叠分岔,每次湮灭一个归因盆地,鞍点标记归因转换(附录F)。  

综上,这些结果构成了**深度学习的统一数学理论**:Maslov去量子化——连接经典力学与量子力学的同一原理——此处连接了热带神经计算与光滑神经计算;而激活类型、架构类别、泛化性、鲁棒性、训练动力学和标度律——通常孤立研究——均作为一个交换图的多个侧面出现,且在Lipschitz g和凸H下封闭。对于二次哈密顿量类,精确的Hopf-Cole对应关系是完整的(定理4.1、4.3、4.4);结构对应关系则扩展至更广泛的架构。  

#### 记号。  
对于ε>0且z∈R^N,定义LSE_ε(z)=ε log ∑_i exp(z_i/ε)。⊗_tr表示热带矩阵乘法:(A ⊗_tr x)_i = max_j (A_ij + x_j)。对于凸哈密顿量H: R^d→R,令L(v)=sup_p(p·v - H(p))表示其Legendre变换。f □ g表示下确界卷积:(f □ g)(x) = inf_y{f(y) + g(x - y)}。  

## 2 背景  

#### Log-Sum-Exp与凸对偶。  
函数LSE_ε: R^m→R是凸的,在ε>0时光滑,且满足∇LSE_ε(x)=softmax(x/ε)。其Legendre-Fenchel共轭是负熵:LSE_ε^*(p)=ε∑_i p_i log p_i(在单纯形上)。它同时是温度ε下吉布斯分布的对数配分函数、max的光滑凸松弛,以及通过Hopf-Cole代换得到的热方程解算子。  

#### 热带半环。  
热带半环(R∪{-∞}, ⊕, ⊗)中a⊕b=max(a,b),a⊗b=a+b,单位元分别为-∞和0。热带矩阵乘法为(A ⊗_tr x)_i = max_j (A_ij + x_j)。Max-plus代数和热带半环是同一结构的两个名称(Litvinov,2007)。  

#### 哈密顿-雅可比PDE。  
**粘性**哈密顿-雅可比(HJ)方程为  
∂_t u + H(∇_x u) = ε Δ_x u, u(x,0)=g(x), (2)  
其中哈密顿量H: R^d→R,粘性ε>0。无粘方程为ε=0。通过Hopf-Cole代换u=-ε log v,方程(2)对于二次哈密顿量H(p)=|p|^2线性化为热方程∂_t v=ε Δ v(Hopf,1950;Evans,2010);对于一般凸H,该代换给出v的非线性方程。无粘方程的粘性解由Crandall-Lions理论刻画(Crandall and Lions,1983);对于凸H,唯一粘性解由Hopf-Lax公式给出(Lax,1957;Evans,2010)。  

#### 超离散化。  
超离散化(Tokihiro等人,1996)通过ε log(e^{A/ε}+e^{B/ε}) → max(A,B)(当ε→0)将光滑系统转化为max-plus系统;而反向提升通过将ε提升至零以上将热带系统重新量子化。最初为孤子PDE开发(Tokihiro等人,1996),同一原理在此应用于神经网络。  

## 3 从神经网络到Max-Plus代数  

#### LSE作为变形。  
对所有x∈R^m:  
max_i x_i ≤ LSE_ε(x) ≤ max_i x_i + ε log m。  
当ε→0时,该不等式夹逼得到max。Maslov去量子化使其更精确。  

###### 定理3.1(Maslov去量子化(Litvinov,2007))。  
对所有x∈R^m,  
lim_{ε→0} LSE_ε(x) = max_i x_i。  
对每个ε>0,(R, LSE_ε, +) ≅ (R_{≥0}, +, ×);极限ε→0是映到热带半环(R, max, +)的半环同态,在该同态下加法变为max,乘法变为+。该过程形式上类似于量子力学中的ħ→0极限:同一实数算术半环变形为热带半环(Litvinov,2007)。  

#### 网络层的两个区间。  
在ε>0时:仿射加LSE层f_ε(x)=LSE_ε(Wx+b)是光滑的;所有N个神经元以softmax权重贡献;输出是熵正则化优化的解。  
在ε=0时:该层变为f_0(x)=max_j (W_j·x + b_j),即热带线性映射,其中单个神经元主导。这是一个max-仿射样条算子(MASO)(Balestriero and Baraniuk,2018,2021),将输入划分为多面体区域,类似于决策树(Aytekin,2022)。ε>0时的softmax权重是one-hot区域指示器的连续松弛。  

## 4 神经网络作为哈密顿-雅可比方程  

**Hopf-Cole解**是粘性HJ方程(2)唯一解u_ε(x,t)的显式公式——它是该方程的**解**,而非求解方法。本节的主张比近似更强:LSE网络层在离散测度下通过层输出与PDE解之间的精确恒等式,**代数上精确地编码**了此解。  

#### Hopf-Cole与LSE表示。  
通过Hopf-Cole代换v=exp(-u/ε),具有哈密顿量H(p)=|p|^2的粘性HJ方程(2)变为热方程∂_t v=ε Δ v,v(x,0)=exp(-g(x)/ε)。热核解反演出:  

u_ε(x,t) = -ε log ∫_{R^d} exp( (-g(y) - |x-y|^2/(4t)) / ε ) dy, (3)  

此即为具有初始数据g的方程(2)的唯一经典解,写作连续变量y上的LSE_ε。  

###### 定理4.1(神经网络层编码PDE解)。  
设{y_j}_{j=1}^N ⊂ R^d,并令W_j = y_j/(2t)

相似文章

深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。

扩散Fitzhugh-Nagumo模型中的均衡传播与哈密顿推断

arXiv cs.LG

本文将均衡传播扩展到斜梯度系统,并展示了深度能量模型与哈密顿神经网络之间的等价性,重点关注扩散耦合的Fitzhugh-Nagumo神经元。它还推导了此类网络中用于推理的逐层哈密顿递归关系。