layer-normalization

标签

Cards List
#layer-normalization

大型语言模型中的深度诅咒

Lobsters Hottest · 10小时前 缓存

本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈