compressed-attention

#compressed-attention

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

Reddit r/MachineLearning ↗ · 8小时前缓存

Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新，包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。

0 人收藏 0 人点赞