标签
本文证明了在高阶光滑非凸优化中寻找ε-稳定点的无维数尖锐一阶下界,解决了Hessian-Lipschitz和三阶光滑情况下的公开问题。
本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数,证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率,并应用于逻辑回归和神经网络。
一篇解释优化中强凸性和L-平滑性(即二次型三明治)概念及其在梯度下降性能中作用的文章。
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。