非均匀光滑性下最速下降与Adam的收敛性

arXiv cs.LG 2026/06/01 04:00 论文

optimization convergence steepest-descent adam smoothness machine-learning

摘要

本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数，证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率，并应用于逻辑回归和神经网络。

arXiv:2605.30648v1 公告类型: 新摘要：最近的工作分析了在非均匀光滑性假设下的一阶方法的收敛性，该假设更好地刻画了机器学习任务中的损失景观。我们将该假设推广到曲率是目标值的仿射函数的目标函数。这一性质满足广泛的问题类别，包括逻辑回归、具有逻辑链接函数的广义线性模型、强化学习中的softmax策略梯度，以及一类神经网络。在此假设和梯度主导条件下，我们建立了最速下降法以及RMSProp和Adam的确定性对角变体的一般收敛速率。我们的结果表明，对于可分离数据上的逻辑回归和softmax策略梯度目标，sign GD线性收敛且理论上快于GD。此外，我们证明对于可分离数据上的一类两层神经网络，RMSProp和Adam可以使用恒定步长和动量参数以线性速率收敛。最后，我们给出了一个下界，表明在我们的假设下，RMSProp和Adam理论上比AdaGrad、AMSGrad、梯度下降和heavy-ball动量更快。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:30

# 非均匀光滑性条件下最速下降法与Adam的收敛性
来源：https://arxiv.org/abs/2605.30648
查看PDF (https://arxiv.org/pdf/2605.30648)

> 摘要：近期研究在非均匀光滑性假设下分析了一阶方法的收敛性，该假设能更好地刻画机器学习任务中的损失景观。我们将此假设推广至目标函数的曲率是目标值仿射函数的情形。这一性质被广泛的问题类别所满足，包括逻辑回归、具有逻辑链接函数的广义线性模型、强化学习中的Softmax策略梯度以及一类神经网络。在此假设及梯度支配条件下，我们建立了最速下降法以及RMSProp和Adam的确定性对角变体的一般收敛率。我们的结果表明：对于可分离数据上的逻辑回归和Softmax策略梯度目标，符号梯度下降法线性收敛，且收敛速度确凿地快于梯度下降法。此外，我们证明，对于可分离数据上的一类两层神经网络，RMSProp和Adam可以在恒定步长和动量参数下以线性速率收敛。最后，我们给出一个下界，表明在我们的假设下，RMSProp和Adam的收敛速度确凿地快于AdaGrad、AMSGrad、梯度下降法和重球动量法。

## 提交历史

来自：Sharan Vaswani [查看邮箱 (https://arxiv.org/show-email/53f7e821/2605.30648)]  
**[v1]** 2026年5月28日 星期四 23:05:45 UTC (79 KB)

非均匀光滑性下最速下降与Adam的收敛性

相似文章

Flatland：大步长梯度下降的冒险

通过平滑激活缓解深度神经网络一致收敛中的维数灾难

关于固定点参数下GD和SGD的一致稳定性与泛化误差

超越有界方差：Blum-Gladyshev噪声下非凸优化的方差缩减归一化方法

多目标优化中梯度聚合的统一框架

提交意见反馈