深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers 2026/05/27 00:00 论文

deep-learning hamilton-jacobi theory neural-networks pde generalization adversarial-robustness

摘要

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索，表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果，包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。

在本文中，神经网络训练被精确识别为通过哈密顿-雅可比初值问题的搜索：每个梯度步骤选择粘性哈密顿-雅可比方程的初始数据，其Hopf-Cole传播子最符合观测值；推理时，输入是评估该解的空间点，初始条件已编码在权重中。这种对应对于log-sum-exp层是精确的，对于更广泛的架构是结构性的：残差网络、Transformer和递归架构（RNN、LSTM、SSM）各自离散化同一类哈密顿-雅可比方程，具有架构依赖的哈密顿量和粘性。单个变形参数ε在交换图中统一了所有四种视角（网络、热带代数、粘性PDE、凸优化），并在Lipschitz条件下闭合。定量结果包括：固定t的极小极大最优泛化率O(n^{-1/(d+2)})；由ε控制的对抗鲁棒性；残差网络的反向传播作为哈密顿系统的共态方程（庞特里亚金最大值原理）；通过PDE求积与数据内在维度一致的缩放指数；以及闭式O(N)影响函数（softmax归因权重π_j），其熵景观随着ε增加经历折叠分岔，每个分岔合并归因盆地。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:36

论文页面 - 深度学习的哈密顿-雅可比理论

来源：https://huggingface.co/papers/2605.28983

摘要

神经网络训练被表述为哈密顿-雅可比初值问题，其中梯度步对应于求解粘性哈密顿-雅可比方程，并通过共有的数学结构与残差网络、Transformer和RNN建立联系。

在本文中，神经网络训练被精确识别为对哈密顿-雅可比初值问题（https://huggingface.co/papers?q=Hamilton–Jacobi%20initial-value%20problems）的搜索：每个梯度步选择一条粘性哈密顿-雅可比方程（https://huggingface.co/papers?q=viscous%20Hamilton–Jacobi%20equation）的初始数据，其Hopf-Cole传播子（https://huggingface.co/papers?q=Hopf–Cole%20propagator）最符合观测结果；在推理时，输入是该解被评估的空间点，初始条件已编码在权重中。该对应关系对于log-sum-exp层（https://huggingface.co/papers?q=log-sum-exp%20layers）是精确的，对于更广泛的架构则是结构性的：残差网络（https://huggingface.co/papers?q=residual%20networks）、Transformer（https://huggingface.co/papers?q=transformers）和循环架构（https://huggingface.co/papers?q=recurrent%20architectures）（RNN（https://huggingface.co/papers?q=RNNs）、LSTM（https://huggingface.co/papers?q=LSTMs）、SSM（https://huggingface.co/papers?q=SSMs））各自离散化同一类哈密顿-雅可比方程，但具有依赖架构的哈密顿量和粘性系数。单个形变参数varepsilon将全部四种视角（网络、热带代数（https://huggingface.co/papers?q=tropical%20algebra）、粘性PDE、凸优化（https://huggingface.co/papers?q=convex%20optimization））统一在一个在Lipschitz条件下封闭的交换图中。定量结论包括：固定t时的极小极大最优泛化率（https://huggingface.co/papers?q=minimax%20optimal%20generalization%20rate）O(n^{-1/(d+2)})；由varepsilon控制的对抗鲁棒性（https://huggingface.co/papers?q=adversarial%20robustness）；反向传播（https://huggingface.co/papers?q=backpropagation）作为残差网络（https://huggingface.co/papers?q=residual%20networks）哈密顿系统的协态方程（https://huggingface.co/papers?q=co-state%20equation）（庞特里亚金最大值原理（https://huggingface.co/papers?q=Pontryagin%20Maximum%20Principle））；通过PDE求积（https://huggingface.co/papers?q=PDE%20quadrature）得到与数据本征维数一致的缩放指数；以及一个闭合形式的O(N)影响函数（https://huggingface.co/papers?q=influence%20function）（softmax注意力权重（https://huggingface.co/papers?q=softmax%20attribution%20weights）π_j），其熵景观（https://huggingface.co/papers?q=entropy%20landscape）随着varepsilon增加经历折叠分岔（https://huggingface.co/papers?q=fold%20bifurcations），每次合并注意力盆。

查看arXiv页面（https://arxiv.org/abs/2605.28983）查看PDF（https://arxiv.org/pdf/2605.28983）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.28983）

在你的agent中获取这篇论文：

hf papers read 2605\.28983

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.28983以从本页链接它。

引用该论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.28983以从本页链接它。

引用该论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.28983以从本页链接它。

深度学习的哈密顿-雅可比理论

论文页面 - 深度学习的哈密顿-雅可比理论

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的Space0

包含该论文的收藏集1

相似文章

深度学习的哈密顿-雅可比理论

@techwith_ram: 如果我告诉你，神经网络先理解局部变化再理解整体图景呢？这个想法与深度…

从微分几何视角看哈密顿神经网络

从近似到涌现：深度学习理论

扩散Fitzhugh-Nagumo模型中的均衡传播与哈密顿推断

提交意见反馈