attention-sink

标签

Cards List
#attention-sink

FP8注意力中的P-Cast精度:凹陷引发的崩溃与S=2^8的最优性

arXiv cs.AI · 3天前 缓存

本文分析了在将softmax输出转换为FP8(E4M3)时,由于注意力凹陷现象导致的FP8注意力精度损失。它表明正向KV迭代会导致非凹陷注意力值下溢,并提出反向迭代和静态缩放因子S=256来消除下溢,实现了3-10倍的MSE改进。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈