标签
本文证明,注意力沉没、表示坍塌和范数分层并非注意力机制所独有,而是基于内容的路由在盲范数相似性度量下的普遍结果,这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。
本文分析了大型语言模型在图语言模型(GLM)中如何内部处理图标记,发现激活层面的显著性与图语义效用之间存在解耦。图汇点标记作为激活异常值出现,但并非图结构的主要载体,揭示了当前图标记构建和对齐机制的局限性。
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。