标签
本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。