attention-sinks

标签

Cards List
#attention-sinks

[R] 所有路线都通向崩溃:注意力沉没、表示坍塌和范数分层——盲范数度量下基于内容的路由的后果

Reddit r/MachineLearning · 2026-06-25 缓存

本文证明,注意力沉没、表示坍塌和范数分层并非注意力机制所独有,而是基于内容的路由在盲范数相似性度量下的普遍结果,这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。

0 人收藏 0 人点赞
#attention-sinks

当图标记成为汇点:图语言模型的机制分析

Hugging Face Daily Papers · 2026-06-02

本文分析了大型语言模型在图语言模型(GLM)中如何内部处理图标记,发现激活层面的显著性与图语义效用之间存在解耦。图汇点标记作为激活异常值出现,但并非图结构的主要载体,揭示了当前图标记构建和对齐机制的局限性。

0 人收藏 0 人点赞
#attention-sinks

一层解释所有:理解大型语言模型中的大规模激活现象

arXiv cs.CL · 2026-05-12 缓存

本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈