内存墙变得昂贵:KV缓存是你应该停止崇拜softmax注意力的原因

Reddit r/singularity 新闻

摘要

文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈,特别是LLM中softmax注意力的KV缓存,并强调了旨在减少内存使用的后Transformer架构,如线性注意力和状态空间模型。

https://preview.redd.it/tbn5b21yl99h1.png?width=1230&format=png&auto=webp&s=6761bd2d18c1a7105c968fc1a594ccbfc3b029e2 情况变得有些不同,一个简单的信号表明“内存是瓶颈”也出现在AI之外:我们都已经看到,普通的2×16GB DDR5套件的价格在过去18个月里大幅上涨(附图为PCPartPicker追踪的价格记录)。然而,需要注意的是,这张图并非直接反映AI内存——GPU在前沿模型训练或推理中并不使用DDR5,它们更依赖HBM。但这一广泛信号意义重大,因为计算机内存变得足够有价值,以至于生产商正在转向AI/HBM,这使得内存优化越来越难以忽视。对于2026年,我想更大的问题是:如果内存昂贵,瓶颈在哪里?在LLM推理中,类似的成本是KV缓存。在softmax注意力中,更长的上下文意味着要保留更多的过去键和值,因此内存使用随序列长度增长。这就是为什么后Transformer架构值得关注:线性注意力变体、状态空间模型以及试图用固定大小的循环状态取代不断增长的KV缓存的混合模型。如果你已经了解到这些,那太好了!正如我们已经在各个领域看到的,Kimi Linear采用了混合线性/softmax设计,Nemotron风格的模型混合了类似Mamba的块与注意力,而Dragon Hatchling(BDH)则采取了更激进的路线,将工作内存放在固定大小的突触状态中,而不是随上下文增长的KV缓存。在此结束我的两点看法:如果内存继续变得越来越贵,架构的演变是否会比硬件的追赶更快?
查看原文

相似文章

内存

Reddit r/artificial

解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。