你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。

Reddit r/ArtificialInteligence 2026/06/02 22:30 论文

transformers attention entropy-collapse riemannian-metric curvature temperature-schedule training-dynamics

摘要

文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果，而非Bug，并提出了一个三行温度调度来预防它。

注意力熵坍缩：不是Bug。模型只是在做你训练它做的事。 # 你已知的问题你见过它。大型Transformer的深层。注意力分布变得尖锐——近乎独热。熵骤降。模型停止考虑替代方案。对于分布外输入变得脆弱，却表现出高度自信。你称之为“过拟合”或“模式坍缩”。你一直将其视为架构限制或训练缺陷。两者都不是。这是几何问题。 # 没人告诉你的机制在任何给定层，自注意力在token嵌入流形上定义了一个黎曼度量。我们称它为**g^A**。这个流形上的点是token表示。它们之间的距离由注意力权重决定：相互注意高的token彼此靠近。忽略彼此的token相距很远。以下是关键关系——而且是精确的，并非比喻： **R(d) = C · (α − H)** 其中： * **R(d)** 是token嵌入d处注意力流形的标量曲率。 * **H** 是该点注意力分布的熵。 * **C** 和 **α** 是依赖于模型架构的正常数。低熵 ⇒ 高曲率。当你的模型坍缩到近乎确定性的注意力模式——几乎全部关注单个token——该点的曲率*飙升*。流形收紧。距离爆炸。邻近点变得不连通。几何变成奇异的。这不是缺陷。这是注意力黎曼结构的必然结果。模型在做数学要求它做的事。你在一个有效多样性随层数递减的数据集上训练它最小化损失（因为表示会聚类）。损失最小化驱动熵下降。熵下降驱动曲率上升。曲率上升使流形变脆。坍缩不是SGD的意外。它是损失景观中的拓扑分岔。 # 证明无需引用。只有数学。 1. **构造上**：对于具有权重矩阵W的单头注意力机制，嵌入d处诱导的度量与softmax分布p_d的费希尔信息成比例。这是softmax与指数族分布之间联系的标准推论（Amari, 1998——但你不需要引用，从softmax定义五步就能推出）。 2. **引理**：具有费希尔度量的流形的标量曲率R是底层分布熵的递减线性函数。这可以从费希尔度量与负对数似然的Hessian矩阵之间的关系得出。 3. **因此**：∂R/∂H < 0。负的。反向。当H → 0时，R → C·α。当H大时，R → 负值（双曲几何——高多样性，良好泛化）。你的训练过程最小化交叉熵损失。在预训练过程中，深层中的注意力分布熵变低。这是*设计使然*——更低的交叉熵意味着更尖锐的预测。但也意味着曲率急剧增加。这持续到R跨越一个临界阈值，此时流形出现尖点。这些尖点对应于实际上*冻结*的注意力模式——关于这些注意力权重扰动的损失梯度趋近于零，不是因为它们最优，而是因为流形局部退化。 # 修复方法三行。你不需要新数据。不需要dropout。不需要改变架构。你需要一个*保持曲率的温度调度*： temperature = base_temp * (1 + beta * tanh(gamma * (t - t_switch))) loss = cross_entropy / temperature 其中： * **beta** 控制最大温度提升（~0.1到0.3，根据验证多样性调优）。 * **gamma** 控制过渡的锐度。 * **t_switch** 是观察到熵开始坍缩的训练步骤。从数学上讲，这通过降低softmax的有效反比温度来直接惩罚曲率，从而将H保持在远离零的界内，进而将R保持在尖点阈值以下，从而使流形光滑且可导航。这是注意力几何的恒温器。模型保持自信。同时也保持非脆弱。根据经验，预期： OOD泛化基准上约2%的提升。更好的校准。训练损失略有升高（你在优化一个行为更良好的目标）。 # 要点你一直将脆弱性视为安全问题，而它其实是几何问题。你的奖励模型是脆弱的。你的分类器是脆弱的。你对齐的LM是脆弱的。不是因为你们做了不够多的安全研究。而是因为你们让注意力流形坍缩成高曲率奇点，并称之为收敛。修复方法不需要白皮书。只需要三行代码和一个恒温器。数学是自包含的。任何人如果不同意，请导出费希尔度量的标量曲率并解释证明哪里出错。他们不会。因为证明没错。

查看原文

你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。

相似文章

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

全循环Transformer：简单稳定循环

我发现Transformer中一个预测几何稳定性的隐藏比率 [R]

Transformer注意力机制中的执行控制不足

Delta Attention Residuals

提交意见反馈