二次型三明治

Hacker News Top 2026/05/20 12:06 新闻

optimization gradient-descent convexity smoothness mathematics tutorial

摘要

一篇解释优化中强凸性和L-平滑性（即二次型三明治）概念及其在梯度下降性能中作用的文章。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/23 09:29

# 二次夹逼来源：https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html 2026-04-08 如果你曾经尝试用梯度下降法最小化一个函数，你可能会注意到，有些函数优化起来令人愉悦，而另一些则如同噩梦。这种差异往往归结于两个性质：**强凸性**和**L-光滑性**。这两个概念定义了一个围绕你的函数的二次夹逼，它精确地告诉你这个函数的行为有多“规整”。如果这个夹逼很紧，那生活就美好。如果少了一片面包，事情很快就会变得糟糕。在这篇文章中，我们将从零开始构建这两个概念，看看它们如何结合形成二次夹逼，理解海森矩阵特征值层面的含义，并掌握一个无需计算任何特征值就能验证L-光滑性的巧妙技巧。 ## 强凸性——函数不能太平坦 (https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html#strong-convexity) 一个可微函数 \\(f:\\mathbb{R}^n\\to\\mathbb{R}\\) 是 \\(\mu\\)-强凸的（其中 \\(\mu > 0\\)），如果对于所有 \\(x, y\\) 有 \\\[f(y) \geq f(x) + \langle \nabla f(x), y - x \rangle + \frac{\mu}{2}\|y - x\|^2\\\] 如果这看起来眼熟，那是因为右边的头两项是 \\(f\\) 在 \\(x\\) 处的一阶泰勒展开。对于普通的凸函数，泰勒展开已经是一个全局的下界（这就是次梯度不等式）。但强凸性要求更多：函数必须保持在切线的上方，**再加上一个二次间隙**。参数 \\(\mu\\) 控制这个间隙的力度——\\(\mu\\) 越大，函数向上弯曲并远离其线性近似的程度就越大。直觉上，强凸函数在所有方向上都保证有至少 \\(\mu\\) 的最小曲率。它不能变平，不能出现平台，也不能在某个方向上近乎平坦的退化山谷。总是存在一种力将你拉向最小值，而且这个力与距离最小化器的距离成线性增长。 ## L-光滑性——函数不能太陡 (https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html#l-smoothness) 一个可微函数 \\(f\\) 是 \\(L\\)-光滑的，如果它的梯度是利普希茨连续的： \\\[\|\nabla f(x) - \nabla f(y)\| \leq L \|x - y\| \quad \forall \; x, y\\\] 仔细阅读：任意两点之间梯度的变化，始终受限于输入变化的一个缩放版本。无论 \\(x\\) 和 \\(y\\) 相距多远，梯度差 \\(\|\nabla f(x) - \nabla f(y)\|\\) 永远不会超过 \\(L\\) 乘以输入差 \\(\|x - y\|\\)。常数 \\(L\\) 就像一根拴着梯子的皮带：它可以移动，但不能猛拉。没有突然的转向，没有曲率的剧烈尖峰。现在介绍这个等价的刻画，它对于夹逼的概念至关重要，有时被称为 **下降引理**：如果 \\(f\\) 是凸的且 \\(L\\)-光滑，那么对所有 \\(x, y\\) 有 \\\[f(y) \leq f(x) + \langle \nabla f(x), y - x \rangle + \frac{L}{2}\|y - x\|^2\\\] 这从利普希茨条件本身并不显然——它需要一个小推导，我们在**附录** (https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html#appendix-descent-lemma) 中给出。关键思想是沿着从 \\(x\\) 到 \\(y\\) 的线段对梯度进行积分，并使用柯西-施瓦茨不等式结合利普希茨界来控制误差。看看它的结构：与强凸性条件形式相同，但不等式方向相反，且 \\(\mu\\) 换成了 \\(L\\)。现在函数保持在其切线的**下方**，加上一个二次项。换句话说，函数可以弯曲，但不能超过曲率为 \\(L\\) 的二次函数。参数 \\(L\\) 限定了任意方向上的最大曲率。如果说强凸性设定了曲率的下限，那么 L-光滑性则设定了上限。 ## 二次夹逼 (https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html#the-quadratic-sandwich) 现在我们把两片面包合在一起。如果 \\(f\\) 既是 \\(\mu\\)-强凸的**又**是 \\(L\\)-光滑的，那么两个不等式同时成立，对所有 \\(x, y\\) 我们得到 \\\[\begin{cases} f(x) + \langle \nabla f(x), y - x \rangle + \frac{\mu}{2}\|y - x\|^2 \leq f(y) \\\\[6pt] f(y) \leq f(x) + \langle \nabla f(x), y - x \rangle + \frac{L}{2}\|y - x\|^2 \end{cases}\\\] 函数被夹在两条以任意点 \\(x\\) 为中心的抛物线之间：下方是一条较紧的抛物线（曲率 \\(\mu\\)），上方是一条较宽的抛物线（曲率 \\(L\\)）。这就是二次夹逼。夹逼的证明在**附录** (https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html#appendix-descent-lemma) 中给出。 ### 条件数比值 \\\[\kappa = \frac{L}{\mu}\\\] 称为**条件数**，它衡量夹逼的厚度。根据构造，由于 \\(L \geq \mu\\)（最大曲率不可能小于最小曲率），条件数总是有下界 1：\\(\kappa \geq 1\\)。小的 \\(\kappa\\)（接近 1）意味着函数“几乎是二次的”——两个界都很紧，函数容易优化。大的 \\(\kappa\\) 意味着不同方向上的曲率变化很大，而这就是梯度下降开始受苦的地方。考虑两种情形： - **某些方向缺乏曲率**（\\(\mu\\) 很小）：小的 \\(\mu\\) 不一定意味着函数是平坦的——你仍然可以有非零的斜率。但它意味着没有“加速度”可以利用：梯度在一次迭代到下一次之间几乎不变，因此你无法判断自己是否更接近最小值，也无法调整步长。想象一下在恒定斜坡上行走——你在移动，但地形没有给你任何关于进展的反馈。 - **梯度变化过于剧烈**（\\(L\\) 很大）：与缺乏强凸性相反——那里的问题是梯度**不**变化——这里的问题是它变化得太**多**了。突然间，在一次迭代和下一次迭代之间，梯度发生尖峰或方向反转，而你的步长没有预料到这一点。请注意，大的 \\(L\\) 本身并不一定是灾难性的：如果 \\(\mu\\) 也很大（各处都是高曲率），那么函数只是一个陡峭但行为良好的碗状，你可以简单地使用统一的较小步长 \\(1/L\\)。真正的麻烦来自于 \\(L\\) 和 \\(\mu\\) 之间的**跨度**——大的条件数 \\(\kappa = L/\mu\\)。当差距显著时，某些方向有高曲率（梯度变化快），而其他方向有低曲率（梯度几乎恒定）。单一的步长无法同时服务两者：如果针对高曲率方向设定步长，则对低曲率方向过于保守，反之亦然。这种不匹配是导致梯度下降经典之字形行为的根源——它不是单独的 \\(L\\) 或单独的 \\(\mu\\) 造成的，而是它们之间的病态条件造成的。当 \\(\kappa = 1\\)（即 \\(\mu = L\\)）时，夹逼完美平衡：同一个二次函数从上下两个方向夹住 \\(f\\)。由于 \\(f\\) 被两条相同的抛物线挤压，它**必须**是那条抛物线。夹逼收缩为一个等式：对所有 \\(x, y\\) \\\[f(y) = f(x) + \langle \nabla f(x), y - x \rangle + \frac{\mu}{2}\|y - x\|^2\\\] 函数处处*恰好*等于其自身的二阶近似——没有误差，没有松弛。现在在最小值点 \\(x^\star\\) 处计算，其中 \\(\nabla f(x^\star) = 0\\)： \\\[f(y) = f(x^\star) + \frac{\mu}{2}\|y - x^\star\|^2\\\] 因此 \\(f\\) 是一个以 \\(x^\star\\) 为中心的完美二次碗。但我们还能榨取更多信息。对等式关于 \\(y\\) 求导得到 \\(\nabla f(y) = \mu(y - x^\star)\\)：任意点的梯度只是一个从最小值点径向向外指向的缩放向量。没有之字形，没有错位——步长为 \\(1/\mu\\) 的梯度下降正好一步就到达最小值： \\\[y - \frac{1}{\mu}\nabla f(y) = y - (y - x^\star) = x^\star\\\] 换句话说，唯一具有完美夹逼的函数是二次函数，而二次函数也是梯度下降根本不需要迭代的函数。 ## 缺少一片面包会发生什么 (https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html#what-goes-wrong) ### 缺少强凸性设 \\(\mu = 0\\)，下界退化为切超平面——你失去了将你拉向最小值的二次拉力。条件数 \\(\kappa = L/\mu\\) 爆炸为 \\(+\infty\\)，这在数学上就是说“梯度下降将会很痛苦”。强凸性的秘密武器在于，梯度保证每一步都有明显的变化。对于一个 \\(\mu\\)-强凸函数，\\(\|\nabla f(x)\|\\) 至少与 \\(\|x - x^\star\|\\) 成比例增长：大的梯度意味着你离最优点很远，小的梯度意味着你很接近。在每一次迭代中，梯度范数让你能够预测离最小值有多远——它是一个**校准信号**。这有具体的算法后果：如果你大致知道距离有多远，你可以采取适当大小的步长——远处大步，近处小步（前提是场在你脚下平滑变化，这由 L-光滑性保证）。没有强凸性，梯度就失去了这种校准。考虑 \\(f(x) = \|x\|_1\\)：除了原点，梯度处处为 \\(\pm 1\\)——它告诉你方向，但根本不说明距离。无论你在 \\(x = 100\\) 还是 \\(x = 0.001\\)，梯度都以同样的强度喊叫。当你移动时，梯度根本不变，所以你无法衡量进展。Huber 损失也是如此：一旦进入线性区间，梯度是常数，你无法判断是近还是远。没有随距离而变的梯度，求解器就如同盲飞——它无法根据与最小值的接近程度来调节步长。更糟糕的是，没有强凸性，你就失去了最小值唯一的保证。函数可能有一整个子空间的最小值，或者一个平坦区域，梯度为零但你离最优点还很远。 ### 缺少 L-光滑性想象你盲目地朝一个目标踢球——你看不到场地，但有人告诉你该往哪个方向踢。只要你在泥地里踢，生活是可以预测的：球每次移动一点，摩擦力让一切可控，你可以合理预期每次踢完后球会落在哪里。你一脚一脚地稳步前进。但现在想象泥地突然消失，你站在冰上。你用同样的能量去踢，但这次球飞走了——它飞过了头，落在了比起点离目标更远的地方。你脚下的地面变了，但你的踢力没有适应。这就是缺少 L-光滑性的核心问题：你找到一个在一个区域（梯度适中，“泥地”）中效果不错的步长，你自信地前进，但结果你到了一个梯度爆炸的区域（“冰面”）——梯度的变化远大于输入的变化。使用同样的步长现在会造成灾难性的过冲，你可能会比起点离最小值更远。数学上：去掉上界，函数就可以任意地尖峰。一个基于当前梯度迈出一步的求解器，无法保证新点处的函数值会是什么——它可能比预期的高得多，因为曲率在当前点和下一点之间爆炸了。考虑 \\(f(x) = -\ln(x)\\) 其中 \\(x > 0\\)：二阶导数是 \\(\frac{1}{x^2}\\)，当 \\(x \to 0\\) 时无界。远离原点，函数是温和的（在 \\(x = 10\\) 处，曲率仅为 \\(0.01\\)），但接近原点时曲率爆炸（在 \\(x = 0.1\\) 处，曲率为 \\(100\\)）。一个为温和区域校准的步长，如果它把你带入陡峭区域，就会剧烈过冲；而为陡峭区域设置的足够保守的步长，在其他地方又会缓慢爬行。在极端情况下，对于像 \\(f(x) = |x|\\) 这样的不可微函数，梯度在拐点处瞬间变化——在该点的有效 \\(L\\) 是无穷大。标准的梯度下降不经修改根本无法处理这种情况。 ### 两个性质都很重要实际上，这正是理解这两个性质共同作用的正确视角：**强凸性关乎局部信息有多丰富**，它确保梯度在每次迭代中都发生有意义的变化，充满了关于你位置的丰富有用信号。**L-光滑性关乎局部信息有多可靠**，它确保地形不会变化得太突然，这样信任局部梯度就不会让你落到出乎意料的地方。一个良态问题两者兼备：丰富且可靠的局部信息。 ## 谱视角——解读海森矩阵的特征值 (https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html#spectral-perspective) 如果 \\(f\\) 是二阶可微的，那么我们讨论的一切都可以从海森矩阵 \\(\nabla^2 f(x)\\) 中读出。由于 \\(f\\) 是凸的，海森矩阵在每个点都是半正定的，这意味着它的所有特征值都是非负的 \\\[0 \leq \lambda_1(x) \leq \lambda_2(x) \leq \cdots \leq \lambda_n(x)\\\] 每个特征值 \\(\lambda_i(x)\\) 都与一个特征向量 \\(v_i(x)\\) 配对——\\(\mathbb{R}^n\\) 中的一个方向，海森矩阵沿着该方向进行简单的缩放：\\(\nabla^2 f(x) \, v_i(x) = \lambda_i(x) \, v_i(x)\\)。如果你站在 \\(x\\) 处，沿 \\(v_i\\) 方向迈出大小为 \\(\varepsilon\\) 的小步，二阶泰勒展开给出所以如果你沿特征向量 \\(v_i\\) 移动，海森矩阵对 \\(f\\) 变化的贡献由 \\(\lambda_i(x)\\) 决定：大的特征值意味着函数在该方向上急剧弯曲，小的特征值意味着它几乎是平坦的。特征向量在每个点定义了一组“自然轴”，特征值告诉你沿每个轴的曲率。 ### 通过谱看强凸性强凸性意味着最小特征值处处有正的下界： \\\[\lambda_1(x) \geq \mu > 0 \quad \forall \; x\\\] 如果某个特征值在某点碰触到零，你就失去了该方向上的曲率——函数在该点有一个“平坦方向”，强凸性失效。参数 \\(\mu\\) 是最紧的这样的界：\\(\mu = \inf_x \lambda_1(x)\\)。当 \\(\mu = 0\\) 时，夹逼的二次下界退化为切超平面：你不再能保证函数在远离任何点时增长，这意味着最小值可能不唯一（或根本不存在）。回头看看泰勒展开，如果 \\(\lambda_i(x) \approx 0\\)，二阶项 \\(\frac{\lambda_i}{2}\\)

二次型三明治

相似文章

非均匀光滑性下最速下降与Adam的收敛性

Flatland：大步长梯度下降的冒险

耦合梯度下降中瞬态放大的伪谱界

通过算法等价实现隐凸损失的在线学习：最优遗憾、几何障碍与赌博机反馈

@pallavishekhar_: 梯度下降背后的数学原理在此阅读：https://outcomeschool.com/blog/math-behind-gradient-descent…

提交意见反馈