super-weights

标签

Cards List
#super-weights

我弄清楚了‘超级权重’的成因

Reddit r/ArtificialInteligence · 5小时前

本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用,该作用创建了一个充当稳定参考点的‘Nothing Dump’标记;移除这些权重会严重损害模型性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈