当下降过于稳定时：用于优化的事件触发哈密顿学习

arXiv cs.LG 2026/05/11 04:00 论文

optimization nonconvex-optimization hamiltonian-systems machine-learning arxiv control-theory

摘要

本文介绍了 SHAPE，这是一种针对固定预算非凸优化的结构化自适应端口哈密顿优化器，它利用事件触发机制来平衡下降、探索和预算分配。

arXiv:2605.06868v1 公告类型：新提交摘要：固定预算的非凸优化之所以失败，并非因为局部下降不稳定，而是因为其过于稳定：在到达附近的驻点后，优化器可能会将剩余的评估次数浪费在对无信息量的局部极小值的精细化上。我们将这种失败模式表述为关于优化器动态的控制问题，其中学习者必须决定何时下降、何时利用有希望的盆状区域，以及何时停滞应触发在其他地方的移动。我们介绍了 SHAPE，这是一种用于局部信息下事件触发极小值搜索的结构化自适应端口哈密顿任务族优化器。SHAPE 从梯度下降动力学出发，将优化提升到扩展相空间 $(q, p)$ 中，其中原始状态 $q$ 代表候选解，余切变量 $p$ 携带方向敏感性，控制器 $u$ 提供来自当前梯度预言机的处理信息。在每个阶段内，学习到的哈密顿向量场诱导结构化的局部下降；跨阶段而言，实现中的固定事件时钟在检测到局部平衡时更新端口和内存，分析中将依赖于阶段的视距作为直接推广处理。该设计保留了与无源性兼容的结构，同时允许相同的训练策略使用干净、随机或估计的梯度输入。在固定预算非凸优化任务上的实验表明，与固定策略优化器相比，SHAPE 提高了迄今为止的最佳性能。这些结果表明，自适应哈密顿能量整形为在复杂的优化地形中平衡下降、探索和预算分配提供了一种合理机制。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:00

# 当下降过于稳定：用于优化源的事件触发哈密顿学习

来源: https://arxiv.org/html/2605.06868

Yi Wang$^1$ <[email protected]>
$^1$ Oden 研究所, 德克萨斯大学奥斯汀分校, 德克萨斯州奥斯汀, 78712

& Chandrajit Bajaj$^{1,2}$ <[email protected]>
$^2$ 计算机科学系, 德克萨斯大学奥斯汀分校, 德克萨斯州奥斯汀, 78712

###### 摘要

固定预算非凸优化的失败往往不是因为局部下降不稳定，而是因为它*过于稳定*：在到达附近的驻点后，优化器可能将剩余的评估次数浪费在一个无信息量的局部极小值的精细化上。我们将这种失败模式表述为优化器动力学上的控制问题，其中学习器必须决定何时下降、何时利用有前景的盆地，以及何时停滞应触发向其他区域的移动。我们提出了 SHAPE，一种用于局部信息下事件触发极小值搜索的结构化自适应端口哈密顿任务族优化器。从梯度下降动力学出发，SHAPE 将优化提升到一个增广相空间 $(q,p)$，其中原始状态 $q$ 代表候选解，余切变量 $p$ 携带方向敏感性，控制器 $u$ 提供来自当前梯度预言机的处理后信息。在每个阶段内，学习到的哈密顿向量场诱导结构化的局部下降；跨阶段，实现中的固定事件时钟在检测到局部平衡时更新端口和内存，具有阶段依赖的地平线在分析中被视为直接推广。这种设计在保持无源兼容结构的同时，允许相同的学习策略使用干净的、随机的或估计的梯度输入。在固定预算非凸优化任务上的实验表明，与固定策略优化器相比，SHAPE 提高了迄今最佳性能。这些结果表明，自适应哈密顿能量整形为在困难的优化景观中平衡下降、探索和预算分配提供了一种原则性的机制。

## 1 引言

我们研究如下形式的固定预算最小化问题：

$$ q^* \in \operatorname*{arg\,min}_{q \in \mathcal{Q}} f(q), \quad (P) $$

其中 $q \in \mathcal{Q} \subset \mathbb{R}^d$ 是决策变量，$f: \mathcal{Q} \to \mathbb{R}$ 是仅通过预言机观察到的目标函数。一阶优化器可以抽象地写为：

$$ q_{k+1} = \mathcal{G}(q_k, g(q_k); \psi), $$

其中 $g(q_k)$ 是获得的局部力，在干净梯度情况下等于 $\nabla f(q_k)$，$\psi$ 表示手动调整的超参数或学习到的更新规则参数。下降更新规则 $\mathcal{G}$ 被证明是稳定的，如果 $f$ 是凸或强凸的，则可以找到所需的全局极小值 Nocedal and Wright (2006); Polyak (1964); Karimi et al. (2016)。然而，这种形式掩盖了有限预算下非凸优化的一个核心困难：局部下降可能*过于稳定*。一旦更新到达附近的一个有吸引力的临界点，剩余的评估可能会花费在与相同预算下最佳解决方案无关的盆地的精细化上。这种失败模式暗示了优化的导航视角。固定的梯度下降方案无法决定何时局部下降有用，何时动量应消散，何时应记录稳定的盆地，以及何时下一阶段应重定向到其他地方。

经典的自适应优化器，如动量 Polyak (1964)，NAG Nesterov (1983)，RMSProp Tieleman and Hinton (2012)，Adam Kingma and Ba (2015) 以及相关的方差缩减方案 Johnson and Zhang (2013)，提供了重要的适应在线梯度下降场景的一阶机制，但它们的部署时更新定律在很大程度上仍然是固定的。因此，如果人们可以从重复的过去下降记录中学习并丰富可以在目标势能景观中穿越的搜索空间，则有必要建立一种学习优化管道。

#### SHAPE：结构化哈密顿自适应端口评估

值得注意的是，基于梯度的方法具有作为动力系统的连续时间解释 Jordan (2018)。这一观察促使我们提出 SHAPE，一种在目标能量景观上导航的可学习受控哈密顿系统。SHAPE 将优化器状态从 $q \in \mathcal{Q}$ 提升到 $x=(q,p) \in T^*\mathcal{Q}$。动量 $p$ 是与 $q$ 共轭的余向量，因此优化器在相空间中演化，而不仅仅是通过原始更新。在事件阶段 $s$，内存 $m_s$ 和局部锚点 $\bar{q}_s$ 定义了一个整形势：

$$ U_s^{\rm shp}(q) = U_\eta(q; m_s) + \frac{\kappa_s}{2}\|q - \bar{q}_s\|^2 + V_{\rm bar,s}(q; m_s, \mu_s), $$

局部哈密顿量为：

$$ H_{s,k}(q,p) = f(q) + U_s^{\rm shp}(q) + \frac{1}{2}p^\top M_k^{-1}p. $$

记忆项总结了之前访问过的盆地，二次项给出了局部阶段锚点，可选的屏障项 discouraged 重复精细化被排除的区域。学习的端口哈密顿控制器选择斜通道、耗散、度量和有界端口输入。端口输入写为 $u^{\rm port} = u^{\rm shp} - K^d y$：$u^{\rm shp}$ 是主动整形或逃逸输入，而 $K^d y$ 是通过功率共轭输出 $y$ 的被动阻尼注入。参见图注 (a) 参见图注 (b)

**图 1：** (a) 局部下降方法可能会从短视轨迹遇到的第一个稳定临界点终止。SHAPE 在内存中记录此类事件，并使用由此产生的整形能量来 discouraging 重复精细化已探索的盆地。(b) 通用的学习优化器将局部预言机信息直接映射到下一次迭代，而 SHAPE 实现了一个闭环端口哈密顿互连。植物状态 $(q_k, p_k)$ 在整形哈密顿量 (4) 下演化；学习的控制器选择结构化算子 $\mathcal{A}_{s,k}$ (7)、阻尼/互连增益和有界端口输入。

该架构分离了两个时间尺度。在一个阶段内，冻结的整形哈密顿量诱导耗散相空间传输。跨阶段，事件接口更新内存、模式、锚点和预算。这与开环学习优化器 $x_{k+1} = \mathcal{G}(x_k, g(q_k); \psi)$ 不同：SHAPE 通过功率共轭端口耦合植物和控制器，如图 1 所示。理想的动态互连可以写为：

$$ \dot{x}_p = (J_p - R_p)\nabla H_p + G_p u_p, \quad \dot{x}_c = (J_c - R_c)\nabla H_c + G_c u_c, \quad (u_p, u_c) = (-y_c, y_p), $$

其中 $y_p = G_p^\top \nabla H_p, \quad y_c = G_c^\top \nabla H_c$。

这种互连在阻尼注入之前是功率保持的。在实现的优化器中，我们使用相应的反馈约简形式：学习的控制器和内存观察植物端口输出并返回有界端口输入、阻尼注入和整形项。因此，学习到的更新通过结构化端口通道作用，而不是通过无约束坐标更新。

#### 贡献。

我们的贡献有三方面。(1) 我们将固定预算非凸优化表述为 $T^*\mathcal{Q}$ 上的事件触发任务族极小值猎人，具有统一的整形势 $U_s^{\rm shp}$ 以及整形输入 $u^{\rm shp}$、端口输入 $u^{\rm port}$ 和阻尼注入之间的显式分离。(2) 我们提供了一个实用的 SHAPE 优化器，适用于干净梯度、随机梯度和仅值预言机输入，使用局部端口哈密顿模板和能量平衡诊断噪声、端口功和离散化缺陷。(3) 我们通过关于冻结阶段弱强制收缩、离散收缩、混合内存辅助改进和随机预言机能量扰动的支持结果将该方法与有限预算进展联系起来，并在合成、基于物理和面向控制的非凸任务族上评估所得的固定预算策略。SHAPE 表明，有限预算优化受益于将停滞视为学习优化事件：稳定下降仍然有用，但优化器必须决定何时盆地变得无信息量。

## 2 预备知识

#### 优化的动力学几何。

许多优化器选择固定形式的更新 $\mathcal{G}$。例如，动量方法可以理解为二阶（欠阻尼）流的离散化。特别地，它们是具有恒定质量 $M \succ 0$ 和线性阻尼的保守或耗散哈密顿动力学。给定哈密顿量 $H(q,p) = f(q) + \tfrac{1}{2}p^\top M^{-1}p$ 和作用于动量的耗散，这些动力学简化为经典的重球系统：

$$ \dot{q} = M^{-1}p, \quad \dot{p} = -\nabla f(q) - D\,M^{-1}p, \quad (1) $$

其标准分裂产生 Polyak 动量/动量 SGD Polyak (1964) 及相关变体，如 Nesterov 加速 Nesterov (1983)。随机对应物（欠阻尼朗之万 Welling and Teh (2011)，SGHMC Chen et al. (2014) 等）进一步添加与耗散一致的噪声以调节探索，但通常在固定几何下运行，并且没有显式机制用于有限预言机预算下的有界驱动。

**表 1：** 优化器机制的紧凑 pH-镜头总结。符号：✓ = 显式/存在；✗ = 缺失；⚫ = 隐式、可选或嵌入依赖。列：Mom. = 显式相/动量状态；Aux. = 持久辅助状态，如矩、曲率估计或慢副本；Prec. = 自适应度量/预条件器；$H_{\rm shp}$ = 基本目标 $f(q)$ 之外的目标/能量整形；Port = 显式有界控制/互连端口；Diff. = 随机扩散/噪声；$+\nabla$ = 每次更新的额外梯度查询。$(0^*)$ 表示额外计算或辅助统计，但没有额外的梯度预言机调用。

| 方法 | Mom. | Aux. | Prec. | $H_{\rm shp}$ | Port | Diff. | $+\nabla$ |
| :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| Heavy-ball | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | 0 |
| NAG | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | 0 |
| AdaGrad | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | 0 |
| RMSProp | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | 0 |
| Adam/AdamW | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | 0 |
| SGHMC Chen et al. (2014) | ✓ | ✗ | ⚫ | ✗ | ✗ | ✓ | 0 |
| Lookahead Zhang et al. (2019) | ✗ | ✓ | ✗ | ✗ | ⚫ | ✗ | 0 |
| SAM Foret et al. (2021) | ✗ | ✗ | ✗ | ✓ | ✗ | ✗ | 1 |
| Shampoo Gupta et al. (2018) | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | 0 |
| SOAP Vyase et al. (2024) | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | $0^*$ |
| Sophia Liu et al. (2023a) | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | $0^*$ |
| Lion Chen et al. (2024) | ⚫ | ✓ | ⚫ | ✗ | ✗ | ✗ | 0 |
| Muon Jordan et al. (2024) | ⚫ | ✓ | ✓ | ✗ | ✗ | ✗ | $0^*$ |
| **SHAPE (ours)** | **✓** | **✓** | **✓** | **✓** | **✓** | **⚫** | **$0^*$** |

#### 自适应度量和状态增广。

许多广泛使用的优化器可以通过引入从在线梯度统计中估计的状态或时间依赖度量（预条件器）$M$ 来解释为修改 (1)，包括 AdaGrad Duchie et al. (2011)，RMSProp Tieleman and Hinton (2012)，Adam/AdamW Kingma and Ba (2015); Loshchilov and Hutter (2019) 及相关变体。其他方法通过额外的副本或过滤器增广状态：Lookahead Zhang et al. (2019) 引入了与快速更新耦合的慢参数副本，而各种前瞻方案在短地平线预测处评估力，而不是在当前迭代处。这些修改可以通过端口哈密顿镜头视为改变有效能量、度量或测量位置。

#### 测量驱动校正和稳健化目标。

几种最近的方法明确使用梯度来重塑有效下降方向或目标。SAM Foret et al. (2021) 用局部稳健化替代经验损失，Sophia Liu et al. (2023a) 结合曲率加权预条件器和裁剪以限制尖锐方向的更新。最近，Lion-K Chen et al. (2024) 和 Muon Jordan et al. (2024) 可以解释为增广状态变量上的端口哈密顿流，其中“动能”项编码镜像几何或隐式约束。我们在表 1 中总结这些系列，并将扩展哈密顿系统映射推迟到附录 C。

#### 哈密顿动力学和辛积分

对于哈密顿系统，其时间积分方案与哈密顿动力学的数值稳定性有关 Leimkuhler and Reich (2004); Girolami and Calderhead (2011); Fu and Wibisono (2025); Van Der Schaft (2006); van der Schaft (2024); Cordonio et al. (2022); Hong and Sun (2023)。构建哈密顿动力学并应用辛积分的优势是双重的。一方面，可以为下降动力学引入一个伪哈密顿系统及其相关的动能。另一方面，可以根据离散化的微分形式使用辛或保形辛积分方案 Van Der Schaft (2006); Hairer et al. (2006)。我们将关于哈密顿动力学和时间积分的更详细讨论推迟到附录 B。

#### 学习优化 (L2O) 和学习更新规则。

学习优化 (L2O) 从优化问题的分布中学习一个优化器，通常通过参数化迭代更新规则并训练它以减小下游优化损失 Chen et al. (2022); Liu et al. (2023b)。将优化问题视为...

当下降过于稳定时：用于优化的事件触发哈密顿学习

相似文章

StraTA：通过策略轨迹抽象激励智能体强化学习

HMACE：面向组合优化的异构多智能体协同进化

AHD Agent：用于自动启发式设计的代理强化学习

具有状态依赖事件的微分代数方程的可微参数优化

基于大语言模型智能体进行分层广义规划时的策略分解学习与复用

提交意见反馈