attention-sinks

#attention-sinks

一层解释所有：理解大型语言模型中的大规模激活现象

arXiv cs.CL ↗ · 昨天缓存

本文识别出大型语言模型（LLM）中极端激活现象产生并传播的“大规模涌现层（Massive Emergence Layer）”，并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。

0 人收藏 0 人点赞