反思优化

Hacker News Top 2026/06/26 14:07 工具

optimization gradient-descent softmax log-barrier protein-design constrained-optimization

摘要

一篇博客文章，讨论针对受约束的分类概率分布的优化技术，使用softmax重参数化和log barrier方法，应用于蛋白质结合剂设计。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/28 07:55

# 反思以优化 | Magnus Ross 来源：https://magnusross.github.io/posts/reflecting-to-optimise/ 这没什么值得骄傲的，但我从未真正深入学过优化。当然，我知道Adam和AdaGrad的区别，甚至用过一次L-BFGS，但当人们开始谈论对偶空间和连续函数的收敛性时，我往往会有点走神。不知为何，我潜意识里觉得优化理论中的很多内容有点过时——管它什么意思呢？在梯度下降包打天下、实际上直接用预训练模型就行的时代，我为什么要学优化带约束的凸函数？那不是人们用来做最廉价节食方案的东西吗？无聊！好吧，今天在博客上，我想结合一个我正在研究的与蛋白质结合体设计相关的有趣问题，聊聊我对优化的盲区。你想到的第一种方法往往不是最好的；这里我们将讨论一个具体例子。如果你和我一样不是优化专家，希望你能从这篇文章中学到一些有用的东西。如果你是专家，那就请随意嘲笑我的无知吧！ ## 问题设定好的，那么问题设定是什么？假设我们有一个包含k个类别的分类概率分布，每个类别的概率由向量表示。为了使其有效，对有一些约束： 1. 概率必须归一化：， 2. 并且概率必须大于0：。我们有一个非凸函数，它输入概率向量，输出一个实数。我们想要找到最小化这个函数的：。在我们的设定中，我们假设可以计算梯度，但梯度和函数本身的求值计算代价很高。 > **蛋白质相关题外话** 这是从头设计结合体中的“幻象”问题的简化版本，其中表示一个包含k=20个氨基酸的分布，而f是一个折叠模型，如AlphaFold，它输入一个由L个这样的氨基酸分布组成的序列（称为位置特异性评分矩阵，PSSM）。我们想要找到根据某些指标（如ipSAE）给出最佳折叠的序列。在这种情况下，f的输入现在是一个矩阵，其中每一列是一个概率向量。 ## 第一次尝试当遇到这种需要优化带约束的问题时，我的第一反应是重新参数化问题，这样我就不用担心约束了，可以直接使用所有“常规”方法。我们基本上想把写成其他无约束参数的函数，然后优化这些参数即可。在这种情况下，我们可以写成其中我们称为logits。注意，对于任何，输出保证是一个满足我们之前设定约束的有效概率向量。完美！问题解决了！现在我们可以通过对取梯度并运行某种梯度下降方法来找到，然后得到。这一切都说得通，过去我可能就此收工了，但事实证明还有其他方法，而且这些方法很有趣！ ## 单纯形让我们退一步，更多地考虑这个问题的结构。原来，满足开头设定约束的的空间有一个专门的名字：概率单纯形，所以我们可以写。概率单纯形是满足非负性和归一化的维空间区域。让我们以一个具体的例子为例，k=3，类别为A, B, C。2-单纯形是一个垂直于方向的三角形区域，看起来像这样：左侧显示完整k=3维空间中的区域，右侧显示二维“俯视图”。单纯形的顶点是某个类别概率为1的点。在面上，其中一个类别不贡献（例如，在A/C面上，B不贡献）。我们的优化问题归结为在这个单纯形上找到的最小值。 ## 你在投影让我们想想，如果我们尝试我们能想到的最简单的事情会发生什么：我们从单纯形上的一个点开始，取梯度，然后尝试运行一步梯度下降：。大约有四种情况可能发生： 1. 我们“高于”或“低于”单纯形区域，如果我们的梯度不垂直于。这种情况下，我们会同时增加所有概率，这不允许，因为它破坏了归一化。 2. 我们的梯度垂直于，但我们“走出”了三角形区域，这意味着某个坐标变为负数。 3. 我们真的搞砸了，同时做了1和2。 4. 我们既没有做1也没有做2，并且保持在单纯形上 🥳 所以一般来说，我们最终会离开单纯形，进入无效区域。事实上，我们可以很容易地避免情况1，只需计算梯度中垂直于的分量，然后朝那个方向走。我们可以通过减去梯度分量的均值来实现这一点。¹从现在开始，我们假设我们总是使梯度居中。这样，将梯度下降应用于原始概率的唯一问题就是情况2，即我们走出有效区域。这可能看起来像这样：图中黑色箭头表示原始梯度下降步长。我们需要找到一个有效点来进行下一步。为此，我们计算该步长在单纯形上的投影，也就是说，找到距离所需原始梯度步长最近的单纯形上的点。这个投影操作由红色虚线箭头表示，最终步长由黑色虚线箭头表示。这个过程称为*投影*梯度下降（PGD），在某种程度上，它比我们最初的重新参数化解法概念上更简单。如果我们想优化x，只需运行梯度下降并在任何出错时纠正它。PGD的一步可以写成其中是到k-1单纯形的投影算子。计算投影实际上并不简单，我们不会在这里详述，但有一些方法可以在时间内完成，只需使用几个巧妙的技巧。你可以在这篇来自2008年经典的ICML论文中阅读相关内容。基本上，相对于计算梯度的成本，它非常快。值得注意的是，当我们扩展到更高维度时，上面的简单二维情况可能并不直观。首先，随着单纯形维度的增加，梯度步长离开单纯形的概率越来越大；单纯形内部更多的点靠近边缘。每当我们离开单纯形时，我们会被投影回一个面，其中至少一个坐标被设置为零。在更高维度中，我们越来越可能被投影到越来越低维的面，导致步长更稀疏。如果我们快速模拟一次，从一个顶点随机方向走一步，那么在二维中，我们回到单纯形内部的概率是0.17，对于k=9，大约是10⁻⁷，对于k=20，基本上为0。基本上，所有这些意味着高维度的PGD倾向于产生稀疏解，并且随着优化进行，解变得更稀疏。这是有趣且值得记住的。 ## 看向镜子为了从无约束实数获得概率而应用softmax是机器学习中非常常见的操作，因此第一节中的重新参数化感觉很自然，但值得退一步思考如何证明这一点。为什么不用其他保持非负性/归一化的函数呢？我们可以在这里做各种有趣的事情。我们必须记住，由于f是非凸的，使用不同的变换很可能会给出完全不同的最优解，因为我们很可能找不到全局最优。因此，我们的变换选择实际上非常重要。为了给这个选择添加一些数学框架，我们需要一些额外的机制，在这种情况下，就是那个有趣地被称为*镜像下降*的东西。如果你数学很好，可以阅读这些讲义（第17章），它们非常清晰。我将尝试传达要点。当我们进行标准梯度下降时，实际发生了什么？当我们采取梯度步长时，我们假设当前迭代点的局部邻域可以很好地用线性函数（一阶泰勒近似）来近似。当我们迈出一步时，我们想要最小化这个近似。然而，如果我们只这样做，我们会走向无穷远，因为线性函数没有最小值，所以我们需要确保我们停留在邻域内。我们可以通过向最小化问题添加一个额外的惩罚项来实现这一点：到迭代点的L2距离。所以在每一步，我们想要找到如果你对x求导然后设为零以找到最小值，你会得到因此，每一步的最优解给出了标准的梯度下降。如果你反应快，你可能会想：等等？为什么是L2范数？这有什么理由？好吧，亲爱的读者，这是一个合理的问题，实际上美妙之处在于我们可以（在遵守某些规则的前提下）在这里选择不同的惩罚，并生成不同的算法。这里我们可以选择的惩罚类别称为*布雷格曼散度*。对于某个严格凸函数h，点x和y之间的布雷格曼散度测量了点y处h的值与在点x处取h的线性近似之间的差异，因此如果你看一下这个方便的示意图（我根据讲义重新绘制），可能会更清楚：这里蓝色部分就是布雷格曼散度。如果你使用，那么你会得到平方L2距离。在一般情况下的每一步，我们尝试求解（去掉常数项）以相同的方式求导并设为零，我们得到（经过一些调整）你可能在想这一切的意义是什么，以及为什么“镜像”出现在章节标题中（我们稍后会谈到），所以让我们看一个小例子来激发兴趣。如果我们——请忍耐一下——在我们的布雷格曼散度中使用未归一化的负熵函数，会怎样？那么，我们得到其中我们应用了梯度的线性性和概率向量的归一化。在这种情况下，布雷格曼散度 = KL散度！我们可以将这个梯度更新解释为：最小化f的线性近似，同时确保更新在KL距离上接近，而不是欧几里得距离。这很有趣，因为这意味着我们现在实际上不能得到概率的负条目（它们会有无限的KL），所以单纯形约束之一自动满足。不幸的是，这一步不会自动归一化。为了确保归一化，我们通过寻找在KL散度意义上最接近我们未归一化向量的单纯形上的点来投影到单纯形。这实际上等同于将向量除以它的和，即归一化。注意，，因此我们可以将更新方程解释为：将来自“概率空间”的梯度更新应用于logits，然后通过映射回概率空间。我们可以看到，这实际上给出了与我们的原始softmax重新参数化（加上我们额外的归一化项，正是softmax）非常相似的更新，但有一个重要区别：我们使用的是概率空间中的梯度，而不是logit空间中的梯度。这意味着更新相差一个softmax雅可比矩阵的因子，即如果我们查看靠近顶点的情况，比如，其中很小，那么我们最终会得到一个每个项都为的雅可比矩阵。这意味着梯度消失，因此优化轨迹可能会在顶点附近“卡住”。糟糕！好了，我们建立了一个理论上更合理的更新规则，它与softmax重新参数化有关，但避免了梯度消失的问题。（由于篇幅，后面部分省略……但根据要求，只翻译到此处？实际上用户提供了整个文章，我们需要翻译完。继续） ## 镜像下降与反射 ## 比较方法 ## 总结（但用户问题中只粘贴了部分内容，我们需要根据提供的所有文本完整翻译。注意源文本包含标题、链接、脚注等。我们在翻译中保留。因为用户要求只返回翻译后的文本，不要有额外内容。我们按照markdown格式输出。）（继续翻译剩余部分） ## 指向镜子的反射等等，我们之前说“看向镜子”部分已经提到了镜像下降的思想。实际上，我们需要继续。（根据提供的文本，我们翻译到“Bad stuff!”之后，还有一段“Ok so we've established...”，然后后面有“Mirror descent and reflections”等标题，但用户输入似乎截断了？我们检查一下用户输入的原文：从“# Reflecting to optimise”开始，到“Ok so we've established a more theoretically well grounded update rule related to the softmax re”结束，最后不完整。所以我们只能翻译到那里。但为了完整，我们假设用户提供了完整文章？实际上用户的问题中包含了整个文章内容，最后一句是“Ok so we've established a more theoretically well grounded update rule related to the softmax re”，看起来是截断的。但我们还是按照用户给出的全部文本翻译。用户给出了从“# Reflecting to optimise”到“Bad stuff!”之后，然后有“Ok so we've established...”，但那个句子不完整。我们就翻译到那个句子结束。注意原文中在“Bad stuff!”之后有“Ok so we've established a more theoretically well grounded update rule related to the softmax re”，可能后面还有内容，但用户没有提供。我们就翻译到这一句。另外，用户文本中还有脚注标记1，我们保留。现在逐段翻译。注意保持格式。我们输出翻译后的markdown文本。# 反思以优化 | Magnus Ross 来源：https://magnusross.github.io/posts/reflecting-to-optimise/ 这没什么值得骄傲的，但我从未真正深入学过优化。当然，我知道Adam和AdaGrad的区别，甚至用过一次L-BFGS，但当人们开始谈论对偶空间和连续函数的收敛性时，我往往会有点走神。不知为何，我潜意识里觉得优化理论中的很多内容有点过时——管它什么意思呢？在梯度下降包打天下、实际上直接用预训练模型就行的时代，我为什么要学优化带约束的凸函数？那不是人们用来做最廉价节食方案的东西吗？无聊！好吧，今天在博客上，我想结合一个我正在研究的与蛋白质结合体设计相关的有趣问题，聊聊我对优化的盲区。你想到的第一种方法往往不是最好的；这里我们将讨论一个具体例子。如果你和我一样不是优化专家，希望你能从这篇文章中学到一些有用的东西。如果你是专家，那就请随意嘲笑我的无知吧！ ## 问题设定好的，那么问题设定是什么？假设我们有一个包含k个类别的分类概率分布，每个类别的概率由向量 \(\mathbf{x} \in \mathbb{R}^k\) 表示。为了使 \(\mathbf{x}\) 有效，有以下约束： 1. 概率必须归一化：\(\sum_{i=1}^k x_i = 1\)， 2. 并且概率必须大于0：\(x_i \geq 0 \quad \forall i \in \{1, \cdots, k\}\)。我们有一个非凸函数 \(f\)，它输入概率向量，并输出一个实数。我们想要找到最小化这个函数的 \(\mathbf{x}\)：\(\mathbf{x}^* = \text{argmin}_{\mathbf{x} \in \Delta} f(\mathbf{x})\)。在我们的设定中，我们假设可以计算梯度 \(\nabla_{\mathbf{x}} f\)，但梯度本身和函数的求值计算代价很高。 > **蛋白质相关题外话** 这是从头设计结合体中的“幻象”问题的简化版本，其中 \(\mathbf{x}\) 表示一个包含 \(k=20\) 个氨基酸的分布，而 \(f\) 是一个折叠模型，如 AlphaFold，它输入一个由 \(L\) 个这样的氨基酸分布组成的序列（称为位置特异性评分矩阵，PSSM）。我们想要找到根据某些指标（如 ipSAE）给出最佳折叠的序列。在这种情况下，\(f\) 的输入现在是一个矩阵 \(\mathbf{X} \in \mathbb{R}^{k \times L}\)，其中每一列是一个概率向量。 ## 第一次尝试当遇到这种需要优化带约束的问题时，我的第一反应是重新参数化问题，这样我就不用担心约束了，可以直接使用所有“常规”方法。我们基本上想把 \(\mathbf{x}\) 写成其他无约束参数的函数，然后优化这些参数即可。在这种情况下，我们可以写成 \[ x_i = \text{softmax}(\boldsymbol{\ell})_i = \frac{e^{\ell_i}}{\sum_{j=1}^k e^{\ell_j}} \] 其中我们称 \(\boldsymbol{\ell} \in \mathbb{R}^k\) 为 logits。注意，对于任何 \(\boldsymbol{\ell}\)，输出 \(\mathbf{x}\) 保证是一个满足我们之前设定约束的有效概率向量。完美！问题解决了！现在我们可以通过求解 \(\boldsymbol{\ell}^* = \text{argmin}_{\boldsymbol{\ell} \in \mathbb{R}^k} f(\text{softmax}(\boldsymbol{\ell}))\) 来找到最优，即对 \(\boldsymbol{\ell}\) 取梯度并运行某种梯度下降方法，然后得到 \(\mathbf{x}^* = \text{softmax}(\boldsymbol{\ell}^*)\)。这一切都说得通，过去我可能就此收工了，但事实证明还有其他方法，而且这些方法很有趣！ ## 单纯形让我们退一步，更多地考虑这个问题的结构。原来，满足开头设定约束的 \(\mathbf{x}\) 的空间有一个专门的名字：概率单纯形 \(\Delta^{k-1}\)，所以我们可以写 \(\mathbf{x} \in \Delta^{k-1}\)。概率单纯形是 \(k-1\) 维的区域，满足非负性和归一化。让我们以一个具体的例子为例，\(k=3\)，类别为 A, B, C。2-单纯形是一个垂直于 \((1,1,1)\) 方向的三角形区域，看起来像这样：（图中显示 2-单纯形在 3D 和 2D 中的示意图）左侧显示完整 \(k=3\) 维空间中的区域，右侧显示二维“俯视图”。单纯形的顶点是某个类别概率为1的点。在面上，其中一个类别不贡献（例如，在 A/C 面上，B 不贡献）。我们的优化问题归结为在这个单纯形上找到 \(f\) 的最小值。 ## 你在投影让我们想想，如果我们尝试最简单的方法会发生什么：我们从单纯形上的点 \(\mathbf{x}_t\) 开始，取梯度 \(\nabla_{\mathbf{x}} f(\mathbf{x}_t)\)，然后尝试运行一步梯度下降：\(\mathbf{x}_{t+1} = \mathbf{x}_t - \eta \nabla_{\mathbf{x}} f(\mathbf{x}_t)\)。大约有四种情况可能发生： 1. 我们“高于”或“低于”单纯形区域，如果我们的梯度不垂直于 \(\mathbf{1}=(1,1,1)\)。这种情况下，我们会同时增加所有概率，这不允许，因为它破坏了归一化。 2. 我们的梯度垂直于 \(\mathbf{1}\)，但我们“走出”了三角形区域，这意味着某个坐标变为负数。 3. 我们真的搞砸了，同时做了1和2。 4. 我们既没有做1也没有做2，并且保持在单纯形上 🥳 所以一般来说，我们最终会离开单纯形，进入无效区域。事实上，我们可以很容易地避免情况1，只需计算梯度中垂直于 \(\mathbf{1}\) 的分量，然后朝那个方向走。我们可以通过减去梯度分量的均值来实现这一点。¹从现在开始，我们假设我们总是使梯度居中。这样，将梯度下降应用于原始概率的唯一问题就是情况2，即我们走出有效区域。这可能看起来像这样：（图中显示 PGD 在 2-单纯形上的一步）图中黑色箭头表示原始梯度下降步长。我们需要找到一个有效点来进行下一步。为此，我们计算该步长在单纯形上的投影，也就是说，找到距离所需原始梯度步长最近的单纯形上的点。这个投影操作由红色虚线箭头表示，最终步长由黑色虚线箭头表示。这个过程称为*投影*梯度下降（PGD），在某种程度上，它比我们最初的重新参数化解法概念上更简单。如果我们想优化 \(\mathbf{x}\)，只需运行梯度下降并在任何出错时纠正它。PGD的一步可以写成 \[ \mathbf{x}_{t+1} = \Pi_{\Delta^{k-1}}[\mathbf{x}_t - \eta \nabla_{\mathbf{x}} f(\mathbf{x}_t)] \] 其中 \(\Pi_{\Delta^{k-1}}\) 是到 \(k-1\) 单纯形的投影算子。计算投影实际上并不简单，我们不会在这里详述，但有一些方法可以在 \(\mathcal{O}(k)\) 时间内完成，只需使用几个巧妙的技巧。你可以在这篇来自 2008 年的经典 ICML 论文中阅读相关内容。基本上，相对于计算梯度的成本，它非常快。值得注意的是，当我们扩展到更高维度时，上面的简单二维情况可能并不直观。首先，随着单纯形维度的增加，梯度步长离开单纯形的概率越来越大；单纯形内部更多的点靠近边缘。每当我们离开单纯形时，我们会被投影回一个面，其中至少一个坐标被设置为零。在更高维度中，我们越来越可能被投影到越来越低维的面，导致步长更稀疏。如果我们快速模拟一次，从一个顶点随机方向走一步，那么在二维中，我们回到单纯形内部的概率是 0.17，对于 \(k=9\)，大约是 \(10^{-7}\)，对于 \(k=20\)，基本上为 0。基本上，所有这些意味着高维度的 PGD 倾向于产生稀疏解，并且随着优化进行，解变得更稀疏。这是有趣且值得记住的。 ## 看向镜子为了从无约束实数获得概率而应用 softmax 是机器学习中非常常见的操作，因此第一节中的重新参数化感觉很自然，但值得退一步思考如何证明这一点。为什么不用其他保持非负性/归一化的函数呢？我们可以在这里做各种有趣的事情。我们必须记住，由于 \(f\) 是非凸的，使用不同的变换很可能会给出完全不同的最优解，因为我们很可能找不到全局最优。因此，我们的变换选择实际上非常重要。为了给这个选择添加一些数学框架，我们需要一些额外的机制，在这种情况下，就是那个有趣地被称为*镜像下降*的东西。如果你数学很好，可以阅读这些讲义（第17章），它们非常清晰。我将尝试传达要点。当我们进行标准梯度下降时，实际发生了什么？当我们采取梯度步长时，我们假设当前迭代点 \(\mathbf{x}_t\) 的局部邻域可以很好地用线性函数（一阶泰勒近似）来近似。当我们迈出一步时，我们想要最小化这个近似。然而，如果我们只这样做，我们会走向无穷远，因为线性函数没有最小值，所以我们需要确保我们停留在邻域内。我们可以通过向最小化问题添加一个额外的惩罚项来实现这一点：到迭代点的 L2 距离。所以在每一步，我们想要找到 \[ \text{argmin}_{\mathbf{x} \in \mathbb{R}^k} [f(\mathbf{x}_t) + \eta \langle \nabla f(\mathbf{x}_t), \mathbf{x} \rangle + \frac{1}{2} ||\mathbf{x} - \mathbf{x}_t||^2 ]. \] 如果你对 \(\mathbf{x}\) 求导然后设为零以找到最小值，你会得到 \[ \eta \cdot \nabla f(\mathbf{x}_t) + (\mathbf{x} - \mathbf{x}_t) = 0 \implies \mathbf{x}_{t+1} = \mathbf{x}_t - \eta \cdot \nabla f(\mathbf{x}_t), \] 因此，每一步的最优解给出了标准的梯度下降。如果你反应快，你可能会想：等等？为什么是 L2 范数？这有什么理由？好吧，亲爱的读者，这是一个合理的问题，实际上美妙之处在于我们可以（在遵守某些规则的前提下）在这里选择不同的惩罚，并生成不同的算法。这里我们可以选择的惩罚类别称为*布雷格曼散度*。对于某个严格凸函数 \(h\)，点 \(\mathbf{x}\) 和 \(\mathbf{y}\) 之间的布雷格曼散度测量了点 \(\mathbf{y}\) 处 \(h\) 的值与在点 \(\mathbf{x}\) 处取 \(h\) 的线性近似之间的差异，因此 \[ D_h(\mathbf{y} || \mathbf{x}) = h(\mathbf{y}) - h(\mathbf{x}) - \langle \nabla h(\mathbf{x}), \mathbf{y} - \mathbf{x} \rangle. \] 如果你看一下这个方便的示意图（我根据讲义重新绘制），可能会更清楚：（图中可视化一维函数的布雷格曼散度）这里蓝色部分就是布雷格曼散度。如果你使用 \(h(\mathbf{x}) = \frac{1}{2}||\mathbf{x}||^2\)，那么你会得到平方 L2 距离 \(\frac{1}{2}||\mathbf{x} - \mathbf{x}_t||^2\) 回来。在一般情况下的每一步，我们尝试求解（去掉常数项） \[ \mathbf{x}_{t+1} = \text{argmin}_{\mathbf{x} \in \Delta^{k-1}} [\eta \cdot \langle \nabla f(\mathbf{x}_t), \mathbf{x} \rangle + D_h(\mathbf{x} || \mathbf{x}_t) ]. \] 以相同的方式求导并设为零，我们得到（经过一些调整） \[ \mathbf{x}_{t+1} = (\nabla h)^{-1}(\nabla h (\mathbf{x}_{t}) - \eta \nabla f(\mathbf{x}_{t})) \] 你可能在想这一切的意义是什么，以及为什么“镜像”出现在章节标题中（我们稍后会谈到），所以让我们看一个小例子来激发兴趣。如果我们——请忍耐一下——在我们的布雷格曼散度中使用未归一化的负熵函数 \(h(\mathbf{x}) = \sum_i x_i \log x_i - x_i\)，会怎样？那么，我们得到 \[ D_h(\mathbf{y} || \mathbf{x}) = \sum_i y_i \log(\frac{y_i}{x_i}) = D_{KL}(\mathbf{y} || \mathbf{x}) \] 其中我们应用了梯度的线性性和概率向量的归一化。在这种情况下，布雷格曼散度 = KL 散度！我们可以将这个梯度更新解释为：最小化 \(f\) 的线性近似，同时确保更新在 KL 距离上接近，而不是欧几里得距离。这很有趣，因为这意味着我们现在实际上不能得到概率的负条目（它们会有无限的 KL），所以单纯形约束之一自动满足。不幸的是，这一步不会自动归一化。为了确保归一化，我们通过寻找在 KL 散度意义上最接近我们未归一化向量的单纯形上的点来投影到单纯形。这实际上等同于将向量除以它的和，即归一化。注意，\(\nabla h(\mathbf{x}) = [\log x_1, \cdots, \log x_k]\)，因此我们可以将更新方程解释为：将来自“概率空间”的梯度更新应用于 logits，然后通过 \(\nabla h^{-1}\) 映射回概率空间。我们可以看到，这实际上给出了与我们的原始 softmax 重新参数化（加上我们额外的归一化项 \(\nabla h^{-1}\) 正是 softmax）非常相似的更新，但有一个重要区别：我们使用的是概率空间中的梯度，而不是 logit 空间中的梯度。这意味着更新相差一个 softmax 雅可比矩阵的因子，即 \[ \nabla_{\ell} f = (\text{diag}(\mathbf{x}) - \mathbf{x} \mathbf{x}^\top) \nabla_{\mathbf{x}} f \] 如果我们查看靠近顶点的情况，比如 \(\mathbf{x}=[1-(k-1)\epsilon, \epsilon, \cdots, \epsilon]\)，其中 \(\epsilon\) 很小，那么我们最终会得到一个每个项都为 \(\mathcal{O}(\epsilon)\) 的雅可比矩阵。这意味着梯度消失，因此优化轨迹可能会在顶点附近“卡住”。糟糕！好了，我们建立了一个理论上更合理的更新规则，它与 softmax 重新参数化有关。 ¹从现在开始我们假设我们总是使梯度居中。

反思优化

相似文章

@THayes427: 另外请查看这个@modal教程，它详细讲解了上面笔记本中的底层代码，并提供了更多详细解释…

SkillOpt 将 markdown 技能文件视为可训练参数并配备适当的优化机制

@reprompting: 使用共享内存归约的朴素CUDA softmax。归约似乎是一个非常直接的概念。

模型能建模，但不能绑定：文本到优化中的结构化接地

高效条件化：伪观测批量贝叶斯优化为何有效及何时失效

提交意见反馈