attention-sinks

#attention-sinks

[R] 所有路线都通向崩溃：注意力沉没、表示坍塌和范数分层——盲范数度量下基于内容的路由的后果

Reddit r/MachineLearning ↗ · 2026-06-25 缓存

本文证明，注意力沉没、表示坍塌和范数分层并非注意力机制所独有，而是基于内容的路由在盲范数相似性度量下的普遍结果，这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。

0 人收藏 0 人点赞

#attention-sinks

Hugging Face Daily Papers ↗ · 2026-06-02

本文分析了大型语言模型在图语言模型（GLM）中如何内部处理图标记，发现激活层面的显著性与图语义效用之间存在解耦。图汇点标记作为激活异常值出现，但并非图结构的主要载体，揭示了当前图标记构建和对齐机制的局限性。

0 人收藏 0 人点赞

#attention-sinks

arXiv cs.CL ↗ · 2026-05-12 缓存

本文识别出大型语言模型（LLM）中极端激活现象产生并传播的“大规模涌现层（Massive Emergence Layer）”，并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。

0 人收藏 0 人点赞