long-context-efficiency

标签

Cards List
#long-context-efficiency

LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]

Reddit r/MachineLearning · 8小时前 缓存

Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈