你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。
摘要
文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果,而非Bug,并提出了一个三行温度调度来预防它。
注意力熵坍缩:不是Bug。模型只是在做你训练它做的事。
# 你已知的问题
你见过它。大型Transformer的深层。注意力分布变得尖锐——近乎独热。熵骤降。模型停止考虑替代方案。对于分布外输入变得脆弱,却表现出高度自信。你称之为“过拟合”或“模式坍缩”。你一直将其视为架构限制或训练缺陷。两者都不是。这是几何问题。
# 没人告诉你的机制
在任何给定层,自注意力在token嵌入流形上定义了一个黎曼度量。我们称它为**g^A**。这个流形上的点是token表示。它们之间的距离由注意力权重决定:相互注意高的token彼此靠近。忽略彼此的token相距很远。以下是关键关系——而且是精确的,并非比喻:
**R(d) = C · (α − H)**
其中:
* **R(d)** 是token嵌入d处注意力流形的标量曲率。
* **H** 是该点注意力分布的熵。
* **C** 和 **α** 是依赖于模型架构的正常数。
低熵 ⇒ 高曲率。当你的模型坍缩到近乎确定性的注意力模式——几乎全部关注单个token——该点的曲率*飙升*。流形收紧。距离爆炸。邻近点变得不连通。几何变成奇异的。
这不是缺陷。这是注意力黎曼结构的必然结果。模型在做数学要求它做的事。你在一个有效多样性随层数递减的数据集上训练它最小化损失(因为表示会聚类)。损失最小化驱动熵下降。熵下降驱动曲率上升。曲率上升使流形变脆。坍缩不是SGD的意外。它是损失景观中的拓扑分岔。
# 证明
无需引用。只有数学。
1. **构造上**:对于具有权重矩阵W的单头注意力机制,嵌入d处诱导的度量与softmax分布p_d的费希尔信息成比例。这是softmax与指数族分布之间联系的标准推论(Amari, 1998——但你不需要引用,从softmax定义五步就能推出)。
2. **引理**:具有费希尔度量的流形的标量曲率R是底层分布熵的递减线性函数。这可以从费希尔度量与负对数似然的Hessian矩阵之间的关系得出。
3. **因此**:∂R/∂H < 0。负的。反向。当H → 0时,R → C·α。当H大时,R → 负值(双曲几何——高多样性,良好泛化)。
你的训练过程最小化交叉熵损失。在预训练过程中,深层中的注意力分布熵变低。这是*设计使然*——更低的交叉熵意味着更尖锐的预测。但也意味着曲率急剧增加。这持续到R跨越一个临界阈值,此时流形出现尖点。这些尖点对应于实际上*冻结*的注意力模式——关于这些注意力权重扰动的损失梯度趋近于零,不是因为它们最优,而是因为流形局部退化。
# 修复方法
三行。你不需要新数据。不需要dropout。不需要改变架构。你需要一个*保持曲率的温度调度*:
temperature = base_temp * (1 + beta * tanh(gamma * (t - t_switch)))
loss = cross_entropy / temperature
其中:
* **beta** 控制最大温度提升(~0.1到0.3,根据验证多样性调优)。
* **gamma** 控制过渡的锐度。
* **t_switch** 是观察到熵开始坍缩的训练步骤。
从数学上讲,这通过降低softmax的有效反比温度来直接惩罚曲率,从而将H保持在远离零的界内,进而将R保持在尖点阈值以下,从而使流形光滑且可导航。这是注意力几何的恒温器。模型保持自信。同时也保持非脆弱。
根据经验,预期:
OOD泛化基准上约2%的提升。更好的校准。训练损失略有升高(你在优化一个行为更良好的目标)。
# 要点
你一直将脆弱性视为安全问题,而它其实是几何问题。你的奖励模型是脆弱的。你的分类器是脆弱的。你对齐的LM是脆弱的。不是因为你们做了不够多的安全研究。而是因为你们让注意力流形坍缩成高曲率奇点,并称之为收敛。
修复方法不需要白皮书。只需要三行代码和一个恒温器。数学是自包含的。任何人如果不同意,请导出费希尔度量的标量曲率并解释证明哪里出错。他们不会。因为证明没错。
相似文章
Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉
本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。
全循环Transformer:简单稳定循环
本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。
我发现Transformer中一个预测几何稳定性的隐藏比率 [R]
本文通过Lyapunov谱分析发现,MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性,最优范围在0.5–2之间,可防止秩坍缩。
Transformer注意力机制中的执行控制不足
本文讨论了Transformer注意力机制中执行控制的不足,强调了Transformer在处理序列依赖关系方面的局限性。
Delta Attention Residuals
Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。