深度学习的哈密顿-雅可比理论
摘要
本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。
查看缓存全文
缓存时间: 2026/06/02 15:36
论文页面 - 深度学习的哈密顿-雅可比理论
来源:https://huggingface.co/papers/2605.28983
摘要
神经网络训练被表述为哈密顿-雅可比初值问题,其中梯度步对应于求解粘性哈密顿-雅可比方程,并通过共有的数学结构与残差网络、Transformer和RNN建立联系。
在本文中,神经网络训练被精确识别为对哈密顿-雅可比初值问题(https://huggingface.co/papers?q=Hamilton–Jacobi%20initial-value%20problems)的搜索:每个梯度步选择一条粘性哈密顿-雅可比方程(https://huggingface.co/papers?q=viscous%20Hamilton–Jacobi%20equation)的初始数据,其Hopf-Cole传播子(https://huggingface.co/papers?q=Hopf–Cole%20propagator)最符合观测结果;在推理时,输入是该解被评估的空间点,初始条件已编码在权重中。该对应关系对于log-sum-exp层(https://huggingface.co/papers?q=log-sum-exp%20layers)是精确的,对于更广泛的架构则是结构性的:残差网络(https://huggingface.co/papers?q=residual%20networks)、Transformer(https://huggingface.co/papers?q=transformers)和循环架构(https://huggingface.co/papers?q=recurrent%20architectures)(RNN(https://huggingface.co/papers?q=RNNs)、LSTM(https://huggingface.co/papers?q=LSTMs)、SSM(https://huggingface.co/papers?q=SSMs))各自离散化同一类哈密顿-雅可比方程,但具有依赖架构的哈密顿量和粘性系数。单个形变参数varepsilon将全部四种视角(网络、热带代数(https://huggingface.co/papers?q=tropical%20algebra)、粘性PDE、凸优化(https://huggingface.co/papers?q=convex%20optimization))统一在一个在Lipschitz条件下封闭的交换图中。定量结论包括:固定t时的极小极大最优泛化率(https://huggingface.co/papers?q=minimax%20optimal%20generalization%20rate)O(n^{-1/(d+2)});由varepsilon控制的对抗鲁棒性(https://huggingface.co/papers?q=adversarial%20robustness);反向传播(https://huggingface.co/papers?q=backpropagation)作为残差网络(https://huggingface.co/papers?q=residual%20networks)哈密顿系统的协态方程(https://huggingface.co/papers?q=co-state%20equation)(庞特里亚金最大值原理(https://huggingface.co/papers?q=Pontryagin%20Maximum%20Principle));通过PDE求积(https://huggingface.co/papers?q=PDE%20quadrature)得到与数据本征维数一致的缩放指数;以及一个闭合形式的O(N)影响函数(https://huggingface.co/papers?q=influence%20function)(softmax注意力权重(https://huggingface.co/papers?q=softmax%20attribution%20weights)π_j),其熵景观(https://huggingface.co/papers?q=entropy%20landscape)随着varepsilon增加经历折叠分岔(https://huggingface.co/papers?q=fold%20bifurcations),每次合并注意力盆。
查看arXiv页面(https://arxiv.org/abs/2605.28983) 查看PDF(https://arxiv.org/pdf/2605.28983) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28983)
在你的agent中获取这篇论文:
hf papers read 2605\.28983
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.28983以从本页链接它。
引用该论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.28983以从本页链接它。
引用该论文的Space0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.28983以从本页链接它。
包含该论文的收藏集1
相似文章
深度学习的哈密顿-雅可比理论
本文建立了神经网络训练与哈密顿-雅可比初值问题之间的精确对应关系,通过一个形变参数统一了深度学习架构。
@techwith_ram: 如果我告诉你,神经网络先理解局部变化再理解整体图景呢?这个想法与深度…
本线程解释了雅可比矩阵背后的直觉及其在人工智能和机器学习中的广泛应用,包括反向传播、归一化流、计算机视觉和机器人技术。
扩散Fitzhugh-Nagumo模型中的均衡传播与哈密顿推断
本文将均衡传播扩展到斜梯度系统,并展示了深度能量模型与哈密顿神经网络之间的等价性,重点关注扩散耦合的Fitzhugh-Nagumo神经元。它还推导了此类网络中用于推理的逐层哈密顿递归关系。
@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……
DeepSeek 发表了一篇论文,介绍了 mHC(流形约束超连接,Manifold-Constrained Hyper-Connections),这是一种对 Transformer 架构的根本性重写,通过用数学约束的多流路径替换标准残差连接,来稳定大型模型。
Transformer 残差流的动力学:谱几何与网络拓扑的耦合
本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。