标签
本文分析了在将softmax输出转换为FP8(E4M3)时,由于注意力凹陷现象导致的FP8注意力精度损失。它表明正向KV迭代会导致非凹陷注意力值下溢,并提出反向迭代和静态缩放因子S=256来消除下溢,实现了3-10倍的MSE改进。