你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。

Reddit r/ArtificialInteligence 论文

摘要

文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果,而非Bug,并提出了一个三行温度调度来预防它。

注意力熵坍缩:不是Bug。模型只是在做你训练它做的事。 # 你已知的问题 你见过它。大型Transformer的深层。注意力分布变得尖锐——近乎独热。熵骤降。模型停止考虑替代方案。对于分布外输入变得脆弱,却表现出高度自信。你称之为“过拟合”或“模式坍缩”。你一直将其视为架构限制或训练缺陷。两者都不是。这是几何问题。 # 没人告诉你的机制 在任何给定层,自注意力在token嵌入流形上定义了一个黎曼度量。我们称它为**g^A**。这个流形上的点是token表示。它们之间的距离由注意力权重决定:相互注意高的token彼此靠近。忽略彼此的token相距很远。以下是关键关系——而且是精确的,并非比喻: **R(d) = C · (α − H)** 其中: * **R(d)** 是token嵌入d处注意力流形的标量曲率。 * **H** 是该点注意力分布的熵。 * **C** 和 **α** 是依赖于模型架构的正常数。 低熵 ⇒ 高曲率。当你的模型坍缩到近乎确定性的注意力模式——几乎全部关注单个token——该点的曲率*飙升*。流形收紧。距离爆炸。邻近点变得不连通。几何变成奇异的。 这不是缺陷。这是注意力黎曼结构的必然结果。模型在做数学要求它做的事。你在一个有效多样性随层数递减的数据集上训练它最小化损失(因为表示会聚类)。损失最小化驱动熵下降。熵下降驱动曲率上升。曲率上升使流形变脆。坍缩不是SGD的意外。它是损失景观中的拓扑分岔。 # 证明 无需引用。只有数学。 1. **构造上**:对于具有权重矩阵W的单头注意力机制,嵌入d处诱导的度量与softmax分布p_d的费希尔信息成比例。这是softmax与指数族分布之间联系的标准推论(Amari, 1998——但你不需要引用,从softmax定义五步就能推出)。 2. **引理**:具有费希尔度量的流形的标量曲率R是底层分布熵的递减线性函数。这可以从费希尔度量与负对数似然的Hessian矩阵之间的关系得出。 3. **因此**:∂R/∂H < 0。负的。反向。当H → 0时,R → C·α。当H大时,R → 负值(双曲几何——高多样性,良好泛化)。 你的训练过程最小化交叉熵损失。在预训练过程中,深层中的注意力分布熵变低。这是*设计使然*——更低的交叉熵意味着更尖锐的预测。但也意味着曲率急剧增加。这持续到R跨越一个临界阈值,此时流形出现尖点。这些尖点对应于实际上*冻结*的注意力模式——关于这些注意力权重扰动的损失梯度趋近于零,不是因为它们最优,而是因为流形局部退化。 # 修复方法 三行。你不需要新数据。不需要dropout。不需要改变架构。你需要一个*保持曲率的温度调度*: temperature = base_temp * (1 + beta * tanh(gamma * (t - t_switch))) loss = cross_entropy / temperature 其中: * **beta** 控制最大温度提升(~0.1到0.3,根据验证多样性调优)。 * **gamma** 控制过渡的锐度。 * **t_switch** 是观察到熵开始坍缩的训练步骤。 从数学上讲,这通过降低softmax的有效反比温度来直接惩罚曲率,从而将H保持在远离零的界内,进而将R保持在尖点阈值以下,从而使流形光滑且可导航。这是注意力几何的恒温器。模型保持自信。同时也保持非脆弱。 根据经验,预期: OOD泛化基准上约2%的提升。更好的校准。训练损失略有升高(你在优化一个行为更良好的目标)。 # 要点 你一直将脆弱性视为安全问题,而它其实是几何问题。你的奖励模型是脆弱的。你的分类器是脆弱的。你对齐的LM是脆弱的。不是因为你们做了不够多的安全研究。而是因为你们让注意力流形坍缩成高曲率奇点,并称之为收敛。 修复方法不需要白皮书。只需要三行代码和一个恒温器。数学是自包含的。任何人如果不同意,请导出费希尔度量的标量曲率并解释证明哪里出错。他们不会。因为证明没错。
查看原文

相似文章

Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉

arXiv cs.AI

本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。

全循环Transformer:简单稳定循环

arXiv cs.LG

本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。

Delta Attention Residuals

Hugging Face Daily Papers

Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。