mlp

#mlp

我发现Transformer中一个预测几何稳定性的隐藏比率 [R]

Reddit r/MachineLearning ↗ · 昨天

本文通过Lyapunov谱分析发现，MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性，最优范围在0.5–2之间，可防止秩坍缩。

0 人收藏 0 人点赞

#mlp

arXiv cs.CL ↗ · 昨天缓存

本文识别出大型语言模型（LLM）中极端激活现象产生并传播的“大规模涌现层（Massive Emergence Layer）”，并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。

0 人收藏 0 人点赞