深度学习的哈密顿-雅可比理论

arXiv cs.LG 2026/05/29 04:00 论文

摘要

本文建立了神经网络训练与哈密顿-雅可比初值问题之间的精确对应关系，通过一个形变参数统一了深度学习架构。

arXiv:2605.28983v1 Announce Type: new \n摘要：在本文中，我们将神经网络的训练精确地等同于对哈密顿-雅可比初值问题的搜索：每个梯度步选择粘性哈密顿-雅可比方程的初始数据，其Hopf-Cole传播子最适合观测结果；在推理时，输入是评估该解的空间点，而初始条件已编码在权重中。该对应对于log-sum-exp层是精确的，对于更广泛的架构（残差网络、Transformer、递归架构（RNN、LSTM、SSM））是结构性的，它们离散化同一类哈密顿-雅可比方程，但具有依赖于架构的哈密顿量和粘性。单个形变参数$\\varepsilon$在一个在Lipschitz条件下封闭的交换图中统一了所有四个视角（网络、热带代数、粘性PDE、凸优化）。定量结果包括：固定$t$时的极小极大最优泛化率$O(n^{-1/(d+2)})$；由$\\varepsilon$控制的对抗鲁棒性；反向传播作为残差网络哈密顿系统的共态方程（庞特里亚金最大值原理）；通过PDE求积与数据内在维度一致的标度指数；以及闭式$O(N)$影响函数（softmax归因权重$\\pi_j$），其熵景观随着$\\varepsilon$增加经历折叠分岔，每个分岔合并归因流域。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:14

# 深度学习的哈密顿-雅可比理论  
来源：https://arxiv.org/html/2605.28983  

何塞·玛丽·安东尼奥·米诺萨¹，埃里卡·菲尔·T·莱加拉¹²，克里斯托弗·P·蒙特罗拉²  
1 菲律宾人工智能研究中心  
2 亚洲管理学院  

###### 摘要  
本文确切地将神经网络训练识别为对哈密顿-雅可比初值问题的搜索：每个梯度步长选择粘性哈密顿-雅可比方程的初始数据，其Hopf-Cole传播子最佳拟合观测值；在推理时，输入是求解该方程的空间点，而初始条件已编码在权重中。该对应关系对于log-sum-exp层是精确的，对于更广泛的架构（残差网络、Transformer和循环架构（RNN、LSTM、SSM））是结构性的——它们均离散化同一类哈密顿-雅可比方程，但具有依赖于架构的哈密顿量和粘性。单一变形参数ε统一了所有四个视角（网络、热带代数、粘性PDE、凸优化），形成一个在Lipschitz条件下封闭的交换图。定量结果包括：固定t时的极小极大最优泛化率O(n^{-1/(d+2)})；由ε控制的对抗鲁棒性；反向传播作为残差网络哈密顿系统的协态方程（庞特里亚金最大值原理）；通过PDE求积得到与数据本征维度一致的标度指数；以及一个闭式O(N)影响函数（softmax归因权重π_j），其熵景观随ε增大发生折叠分岔，每次合并一个归因盆地。  

## 1 引言  

神经网络求解什么方程？传统上问题的方向相反：给定一个偏微分方程，设计一个网络来逼近其解（Han等人，2018）。而在这里，一个训练好的网络本身就是哈密顿-雅可比方程，问题在于它是哪一个。关键在于单一变形参数ε和超离散化（Tokihiro等人，1996）：精确的极限过程ε→0在两个代数世界之间转换。在ε=0时，加法是max，乘法是+（热带半环）；在ε>0时，恢复普通算术，同一对象作为粘性PDE的解算子重现。这一过程不是近似，而是精确的半环同态，即Maslov去量子化（Litvinov，2007）。实现这一点的数学对象是具有log-sum-exp激活的层：  

f_ε(x) = ε log ∑_{j=1}^N exp((W_j·x + b_j)/ε). (1)  

(1)式的代数结构由其热带极限固定。在ε=0时，(1)式坍缩为max_j(W_j·x + b_j)，即Hopf-Lax公式和一个凸优化问题。极限过程ε→0是Maslov去量子化（Litvinov，2007）：从(R, +, ×)到(R, max, +)的精确半环同态，而非数值近似。将ε提升至零以上逆转此极限，将热带机器转换为光滑层(1)；Hopf-Cole线性化（Hopf，1950）则将(1)式精确识别为粘性哈密顿-雅可比方程的热方程传播子（定理4.1）。权重编码初始数据，架构编码哈密顿量，前向传播在查询点x处评估该PDE解。参数ε同时作为softmax温度、PDE粘性和凸正则化强度；定理7.1表明这些角色是同一的而非巧合。  

#### 贡献。  
本文的贡献在于**统一性**：各个独立成分（Maslov去量子化（Litvinov，2007）、Hopf-Cole线性化（Hopf，1950）、ResNet-as-ODE（E，2017；Chen等人，2018）、伴随方法（Chen等人，2018）、标度律（Kaplan等人，2020））均为已知，但将它们置于单一参数ε下，则得到一个交换图以及单独任何成分都无法推出的定量结果。具体而言，本文建立：  

1. (i) LSE激活是热带max运算的光滑变形；极限ε→0是从(R, +, ×)到(R, max, +)的精确半环同态（定理3.1）。  
2. (ii) 每个LSE激活的前馈层精确编码离散测度下粘性哈密顿-雅可比PDE的Hopf-Cole解（定理4.1）；Transformer注意力是吉布斯测度下的期望值向量（命题H.9）；深度网络在点估值复合下对应于PDE半群的结构。热带极限ε→0恢复Hopf-Lax下确界卷积（定理5.1），同时是一个线性规划和一个MASO；残差网络和循环架构（RNN、LSTM、SSM）离散化具有与架构相关粘性的ODE特征（命题5.2、5.4）。  
3. (iii) 单一参数ε索引同一对象的四个视角（神经网络、热带代数、PDE、凸优化），所得的交换图（定理7.1）在Lipschitz g和凸H下封闭。  
4. (iv) 该框架产生可操作的设计原则：由宽度和数据维度确定的最优温度ε^* ≍ N^{-1/d}达到极小极大率O(n^{-1/(d+2)})（定理8.1）；对抗鲁棒性由ε可证明地控制（推论8.2）；反向传播是残差网络哈密顿系统的协态方程（定理8.4）；该框架可扩展至可学习二次型H_θ(p)=p^T A_θ p（定理4.4）。  
5. (v) softmax权重π_j是闭式O(N)影响函数，具有精确标签敏感性∂f̂/∂g_j = π_j (1 + (f̂ - g_j)/ε)，无需Hessian求逆；归因熵景观H(π)随ε增大发生折叠分岔，每次湮灭一个归因盆地，鞍点标记归因转换（附录F）。  

综上，这些结果构成了**深度学习的统一数学理论**：Maslov去量子化——连接经典力学与量子力学的同一原理——此处连接了热带神经计算与光滑神经计算；而激活类型、架构类别、泛化性、鲁棒性、训练动力学和标度律——通常孤立研究——均作为一个交换图的多个侧面出现，且在Lipschitz g和凸H下封闭。对于二次哈密顿量类，精确的Hopf-Cole对应关系是完整的（定理4.1、4.3、4.4）；结构对应关系则扩展至更广泛的架构。  

#### 记号。  
对于ε>0且z∈R^N，定义LSE_ε(z)=ε log ∑_i exp(z_i/ε)。⊗_tr表示热带矩阵乘法：(A ⊗_tr x)_i = max_j (A_ij + x_j)。对于凸哈密顿量H: R^d→R，令L(v)=sup_p(p·v - H(p))表示其Legendre变换。f □ g表示下确界卷积：(f □ g)(x) = inf_y{f(y) + g(x - y)}。  

## 2 背景  

#### Log-Sum-Exp与凸对偶。  
函数LSE_ε: R^m→R是凸的，在ε>0时光滑，且满足∇LSE_ε(x)=softmax(x/ε)。其Legendre-Fenchel共轭是负熵：LSE_ε^*(p)=ε∑_i p_i log p_i（在单纯形上）。它同时是温度ε下吉布斯分布的对数配分函数、max的光滑凸松弛，以及通过Hopf-Cole代换得到的热方程解算子。  

#### 热带半环。  
热带半环(R∪{-∞}, ⊕, ⊗)中a⊕b=max(a,b)，a⊗b=a+b，单位元分别为-∞和0。热带矩阵乘法为(A ⊗_tr x)_i = max_j (A_ij + x_j)。Max-plus代数和热带半环是同一结构的两个名称（Litvinov，2007）。  

#### 哈密顿-雅可比PDE。  
**粘性**哈密顿-雅可比（HJ）方程为  
∂_t u + H(∇_x u) = ε Δ_x u, u(x,0)=g(x), (2)  
其中哈密顿量H: R^d→R，粘性ε>0。无粘方程为ε=0。通过Hopf-Cole代换u=-ε log v，方程(2)对于二次哈密顿量H(p)=|p|^2线性化为热方程∂_t v=ε Δ v（Hopf，1950；Evans，2010）；对于一般凸H，该代换给出v的非线性方程。无粘方程的粘性解由Crandall-Lions理论刻画（Crandall and Lions，1983）；对于凸H，唯一粘性解由Hopf-Lax公式给出（Lax，1957；Evans，2010）。  

#### 超离散化。  
超离散化（Tokihiro等人，1996）通过ε log(e^{A/ε}+e^{B/ε}) → max(A,B)（当ε→0）将光滑系统转化为max-plus系统；而反向提升通过将ε提升至零以上将热带系统重新量子化。最初为孤子PDE开发（Tokihiro等人，1996），同一原理在此应用于神经网络。  

## 3 从神经网络到Max-Plus代数  

#### LSE作为变形。  
对所有x∈R^m：  
max_i x_i ≤ LSE_ε(x) ≤ max_i x_i + ε log m。  
当ε→0时，该不等式夹逼得到max。Maslov去量子化使其更精确。  

###### 定理3.1（Maslov去量子化（Litvinov，2007））。  
对所有x∈R^m，  
lim_{ε→0} LSE_ε(x) = max_i x_i。  
对每个ε>0，(R, LSE_ε, +) ≅ (R_{≥0}, +, ×)；极限ε→0是映到热带半环(R, max, +)的半环同态，在该同态下加法变为max，乘法变为+。该过程形式上类似于量子力学中的ħ→0极限：同一实数算术半环变形为热带半环（Litvinov，2007）。  

#### 网络层的两个区间。  
在ε>0时：仿射加LSE层f_ε(x)=LSE_ε(Wx+b)是光滑的；所有N个神经元以softmax权重贡献；输出是熵正则化优化的解。  
在ε=0时：该层变为f_0(x)=max_j (W_j·x + b_j)，即热带线性映射，其中单个神经元主导。这是一个max-仿射样条算子（MASO）（Balestriero and Baraniuk，2018，2021），将输入划分为多面体区域，类似于决策树（Aytekin，2022）。ε>0时的softmax权重是one-hot区域指示器的连续松弛。  

## 4 神经网络作为哈密顿-雅可比方程  

**Hopf-Cole解**是粘性HJ方程(2)唯一解u_ε(x,t)的显式公式——它是该方程的**解**，而非求解方法。本节的主张比近似更强：LSE网络层在离散测度下通过层输出与PDE解之间的精确恒等式，**代数上精确地编码**了此解。  

#### Hopf-Cole与LSE表示。  
通过Hopf-Cole代换v=exp(-u/ε)，具有哈密顿量H(p)=|p|^2的粘性HJ方程(2)变为热方程∂_t v=ε Δ v，v(x,0)=exp(-g(x)/ε)。热核解反演出：  

u_ε(x,t) = -ε log ∫_{R^d} exp( (-g(y) - |x-y|^2/(4t)) / ε ) dy, (3)  

此即为具有初始数据g的方程(2)的唯一经典解，写作连续变量y上的LSE_ε。  

###### 定理4.1（神经网络层编码PDE解）。  
设{y_j}_{j=1}^N ⊂ R^d，并令W_j = y_j/(2t)

深度学习的哈密顿-雅可比理论

相似文章

深度学习的哈密顿-雅可比理论

从微分几何视角看哈密顿神经网络

@techwith_ram: 如果我告诉你，神经网络先理解局部变化再理解整体图景呢？这个想法与深度…

从近似到涌现：深度学习理论

扩散Fitzhugh-Nagumo模型中的均衡传播与哈密顿推断

提交意见反馈