深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers 论文

摘要

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。

在本文中,神经网络训练被精确识别为通过哈密顿-雅可比初值问题的搜索:每个梯度步骤选择粘性哈密顿-雅可比方程的初始数据,其Hopf-Cole传播子最符合观测值;推理时,输入是评估该解的空间点,初始条件已编码在权重中。这种对应对于log-sum-exp层是精确的,对于更广泛的架构是结构性的:残差网络、Transformer和递归架构(RNN、LSTM、SSM)各自离散化同一类哈密顿-雅可比方程,具有架构依赖的哈密顿量和粘性。单个变形参数ε在交换图中统一了所有四种视角(网络、热带代数、粘性PDE、凸优化),并在Lipschitz条件下闭合。定量结果包括:固定t的极小极大最优泛化率O(n^{-1/(d+2)});由ε控制的对抗鲁棒性;残差网络的反向传播作为哈密顿系统的共态方程(庞特里亚金最大值原理);通过PDE求积与数据内在维度一致的缩放指数;以及闭式O(N)影响函数(softmax归因权重π_j),其熵景观随着ε增加经历折叠分岔,每个分岔合并归因盆地。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:36

论文页面 - 深度学习的哈密顿-雅可比理论

来源:https://huggingface.co/papers/2605.28983

摘要

神经网络训练被表述为哈密顿-雅可比初值问题,其中梯度步对应于求解粘性哈密顿-雅可比方程,并通过共有的数学结构与残差网络、Transformer和RNN建立联系。

在本文中,神经网络训练被精确识别为对哈密顿-雅可比初值问题(https://huggingface.co/papers?q=Hamilton–Jacobi%20initial-value%20problems)的搜索:每个梯度步选择一条粘性哈密顿-雅可比方程(https://huggingface.co/papers?q=viscous%20Hamilton–Jacobi%20equation)的初始数据,其Hopf-Cole传播子(https://huggingface.co/papers?q=Hopf–Cole%20propagator)最符合观测结果;在推理时,输入是该解被评估的空间点,初始条件已编码在权重中。该对应关系对于log-sum-exp层(https://huggingface.co/papers?q=log-sum-exp%20layers)是精确的,对于更广泛的架构则是结构性的:残差网络(https://huggingface.co/papers?q=residual%20networks)、Transformer(https://huggingface.co/papers?q=transformers)和循环架构(https://huggingface.co/papers?q=recurrent%20architectures)(RNN(https://huggingface.co/papers?q=RNNs)、LSTM(https://huggingface.co/papers?q=LSTMs)、SSM(https://huggingface.co/papers?q=SSMs))各自离散化同一类哈密顿-雅可比方程,但具有依赖架构的哈密顿量和粘性系数。单个形变参数varepsilon将全部四种视角(网络、热带代数(https://huggingface.co/papers?q=tropical%20algebra)、粘性PDE、凸优化(https://huggingface.co/papers?q=convex%20optimization))统一在一个在Lipschitz条件下封闭的交换图中。定量结论包括:固定t时的极小极大最优泛化率(https://huggingface.co/papers?q=minimax%20optimal%20generalization%20rate)O(n^{-1/(d+2)});由varepsilon控制的对抗鲁棒性(https://huggingface.co/papers?q=adversarial%20robustness);反向传播(https://huggingface.co/papers?q=backpropagation)作为残差网络(https://huggingface.co/papers?q=residual%20networks)哈密顿系统的协态方程(https://huggingface.co/papers?q=co-state%20equation)(庞特里亚金最大值原理(https://huggingface.co/papers?q=Pontryagin%20Maximum%20Principle));通过PDE求积(https://huggingface.co/papers?q=PDE%20quadrature)得到与数据本征维数一致的缩放指数;以及一个闭合形式的O(N)影响函数(https://huggingface.co/papers?q=influence%20function)(softmax注意力权重(https://huggingface.co/papers?q=softmax%20attribution%20weights)π_j),其熵景观(https://huggingface.co/papers?q=entropy%20landscape)随着varepsilon增加经历折叠分岔(https://huggingface.co/papers?q=fold%20bifurcations),每次合并注意力盆。

查看arXiv页面(https://arxiv.org/abs/2605.28983) 查看PDF(https://arxiv.org/pdf/2605.28983) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28983)

在你的agent中获取这篇论文:

hf papers read 2605\.28983

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.28983以从本页链接它。

引用该论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.28983以从本页链接它。

引用该论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.28983以从本页链接它。

包含该论文的收藏集1

相似文章

深度学习的哈密顿-雅可比理论

arXiv cs.LG

本文建立了神经网络训练与哈密顿-雅可比初值问题之间的精确对应关系,通过一个形变参数统一了深度学习架构。

扩散Fitzhugh-Nagumo模型中的均衡传播与哈密顿推断

arXiv cs.LG

本文将均衡传播扩展到斜梯度系统,并展示了深度能量模型与哈密顿神经网络之间的等价性,重点关注扩散耦合的Fitzhugh-Nagumo神经元。它还推导了此类网络中用于推理的逐层哈密顿递归关系。

Transformer 残差流的动力学:谱几何与网络拓扑的耦合

arXiv cs.LG

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。