非均匀光滑性下最速下降与Adam的收敛性

arXiv cs.LG 论文

摘要

本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数,证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率,并应用于逻辑回归和神经网络。

arXiv:2605.30648v1 公告类型: 新 摘要:最近的工作分析了在非均匀光滑性假设下的一阶方法的收敛性,该假设更好地刻画了机器学习任务中的损失景观。我们将该假设推广到曲率是目标值的仿射函数的目标函数。这一性质满足广泛的问题类别,包括逻辑回归、具有逻辑链接函数的广义线性模型、强化学习中的softmax策略梯度,以及一类神经网络。在此假设和梯度主导条件下,我们建立了最速下降法以及RMSProp和Adam的确定性对角变体的一般收敛速率。我们的结果表明,对于可分离数据上的逻辑回归和softmax策略梯度目标,sign GD线性收敛且理论上快于GD。此外,我们证明对于可分离数据上的一类两层神经网络,RMSProp和Adam可以使用恒定步长和动量参数以线性速率收敛。最后,我们给出了一个下界,表明在我们的假设下,RMSProp和Adam理论上比AdaGrad、AMSGrad、梯度下降和heavy-ball动量更快。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:30

# 非均匀光滑性条件下最速下降法与Adam的收敛性
来源:https://arxiv.org/abs/2605.30648
查看PDF (https://arxiv.org/pdf/2605.30648)

> 摘要:近期研究在非均匀光滑性假设下分析了一阶方法的收敛性,该假设能更好地刻画机器学习任务中的损失景观。我们将此假设推广至目标函数的曲率是目标值仿射函数的情形。这一性质被广泛的问题类别所满足,包括逻辑回归、具有逻辑链接函数的广义线性模型、强化学习中的Softmax策略梯度以及一类神经网络。在此假设及梯度支配条件下,我们建立了最速下降法以及RMSProp和Adam的确定性对角变体的一般收敛率。我们的结果表明:对于可分离数据上的逻辑回归和Softmax策略梯度目标,符号梯度下降法线性收敛,且收敛速度确凿地快于梯度下降法。此外,我们证明,对于可分离数据上的一类两层神经网络,RMSProp和Adam可以在恒定步长和动量参数下以线性速率收敛。最后,我们给出一个下界,表明在我们的假设下,RMSProp和Adam的收敛速度确凿地快于AdaGrad、AMSGrad、梯度下降法和重球动量法。

## 提交历史

来自:Sharan Vaswani [查看邮箱 (https://arxiv.org/show-email/53f7e821/2605.30648)]  
**[v1]** 2026年5月28日 星期四 23:05:45 UTC (79 KB)

相似文章

Flatland:大步长梯度下降的冒险

arXiv cs.LG

本文探讨了在非L-光滑目标上梯度下降收敛的最大步长这一开放问题,引入了在稳定性边缘运行且能够全局最小化尖锐度的自适应方法。

关于固定点参数下GD和SGD的一致稳定性与泛化误差

arXiv cs.LG

本文分析了离散参数空间中采用确定性或随机舍入的梯度下降(GD)和随机梯度下降(SGD)的泛化误差、一致稳定性和一致参数稳定性,表明舍入会降低GD的泛化性能,并为随机舍入引入了维度相关的误差。

多目标优化中梯度聚合的统一框架

arXiv cs.LG

本文提出了一个多目标优化中梯度聚合的统一理论框架,建立了收敛到帕累托平稳性的速率。作者引入了一个充分对齐条件,并展示了其在现有算法和新算法(如 capped MGDA)中的应用。