内存墙变得昂贵:KV缓存是你应该停止崇拜softmax注意力的原因
摘要
文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈,特别是LLM中softmax注意力的KV缓存,并强调了旨在减少内存使用的后Transformer架构,如线性注意力和状态空间模型。
https://preview.redd.it/tbn5b21yl99h1.png?width=1230&format=png&auto=webp&s=6761bd2d18c1a7105c968fc1a594ccbfc3b029e2 情况变得有些不同,一个简单的信号表明“内存是瓶颈”也出现在AI之外:我们都已经看到,普通的2×16GB DDR5套件的价格在过去18个月里大幅上涨(附图为PCPartPicker追踪的价格记录)。然而,需要注意的是,这张图并非直接反映AI内存——GPU在前沿模型训练或推理中并不使用DDR5,它们更依赖HBM。但这一广泛信号意义重大,因为计算机内存变得足够有价值,以至于生产商正在转向AI/HBM,这使得内存优化越来越难以忽视。对于2026年,我想更大的问题是:如果内存昂贵,瓶颈在哪里?在LLM推理中,类似的成本是KV缓存。在softmax注意力中,更长的上下文意味着要保留更多的过去键和值,因此内存使用随序列长度增长。这就是为什么后Transformer架构值得关注:线性注意力变体、状态空间模型以及试图用固定大小的循环状态取代不断增长的KV缓存的混合模型。如果你已经了解到这些,那太好了!正如我们已经在各个领域看到的,Kimi Linear采用了混合线性/softmax设计,Nemotron风格的模型混合了类似Mamba的块与注意力,而Dragon Hatchling(BDH)则采取了更激进的路线,将工作内存放在固定大小的突触状态中,而不是随上下文增长的KV缓存。在此结束我的两点看法:如果内存继续变得越来越贵,架构的演变是否会比硬件的追赶更快?
相似文章
KV缓存墙:为何固定大小内存的序列模型不断回归
探讨了Transformer推理中KV缓存日益增长的内存瓶颈,解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。
内存
解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。
@TheTuringPost: 为什么 KV cache 是 LLM 速度快的主要原因之一?KV cache 将注意力机制与生成阶段连接起来……
KV cache 在自回归生成过程中存储先前计算的键向量和值向量,使模型能够避免在每一步重新计算整个序列,从而显著加速推理,但代价是内存使用增加。
AI记忆开始显得比模型智能更重要
文章讨论了LLMs中记忆架构日益增长的重要性,认为随着模型的改进,记忆的可靠性可能比原始模型智能更重要。
@HaochengXiUCB: 新博客文章:视频与世界模型中的遗忘墙——长时域视频生成不仅仅受限于计算……
这篇博客文章介绍了长时域视频生成和世界模型中'Forgetting Wall'的概念,认为主要瓶颈是内存(KV缓存增长)而非计算,并探讨了压缩作为未来模型的关键方向。