attention-sinks

标签

Cards List
#attention-sinks

一层解释所有:理解大型语言模型中的大规模激活现象

arXiv cs.CL · 昨天 缓存

本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈