layer-normalization

#layer-normalization

大型语言模型中的深度诅咒

Lobsters Hottest ↗ · 9小时前缓存

本文介绍了LLM中的深度诅咒问题，即由于Pre-Layer Normalization导致输出方差爆炸，深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题，并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。

0 人收藏 0 人点赞