mlp

标签

Cards List
#mlp

我发现Transformer中一个预测几何稳定性的隐藏比率 [R]

Reddit r/MachineLearning · 昨天

本文通过Lyapunov谱分析发现,MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性,最优范围在0.5–2之间,可防止秩坍缩。

0 人收藏 0 人点赞
#mlp

一层解释所有:理解大型语言模型中的大规模激活现象

arXiv cs.CL · 昨天 缓存

本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈