内存墙变得昂贵：KV缓存是你应该停止崇拜softmax注意力的原因

Reddit r/singularity 2026/06/24 17:28 新闻

memory kv-cache attention transformers llm-inference hardware-architecture

摘要

文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈，特别是LLM中softmax注意力的KV缓存，并强调了旨在减少内存使用的后Transformer架构，如线性注意力和状态空间模型。

https://preview.redd.it/tbn5b21yl99h1.png?width=1230&format=png&auto=webp&s=6761bd2d18c1a7105c968fc1a594ccbfc3b029e2 情况变得有些不同，一个简单的信号表明“内存是瓶颈”也出现在AI之外：我们都已经看到，普通的2×16GB DDR5套件的价格在过去18个月里大幅上涨（附图为PCPartPicker追踪的价格记录）。然而，需要注意的是，这张图并非直接反映AI内存——GPU在前沿模型训练或推理中并不使用DDR5，它们更依赖HBM。但这一广泛信号意义重大，因为计算机内存变得足够有价值，以至于生产商正在转向AI/HBM，这使得内存优化越来越难以忽视。对于2026年，我想更大的问题是：如果内存昂贵，瓶颈在哪里？在LLM推理中，类似的成本是KV缓存。在softmax注意力中，更长的上下文意味着要保留更多的过去键和值，因此内存使用随序列长度增长。这就是为什么后Transformer架构值得关注：线性注意力变体、状态空间模型以及试图用固定大小的循环状态取代不断增长的KV缓存的混合模型。如果你已经了解到这些，那太好了！正如我们已经在各个领域看到的，Kimi Linear采用了混合线性/softmax设计，Nemotron风格的模型混合了类似Mamba的块与注意力，而Dragon Hatchling（BDH）则采取了更激进的路线，将工作内存放在固定大小的突触状态中，而不是随上下文增长的KV缓存。在此结束我的两点看法：如果内存继续变得越来越贵，架构的演变是否会比硬件的追赶更快？

查看原文

内存墙变得昂贵：KV缓存是你应该停止崇拜softmax注意力的原因

相似文章

KV缓存墙：为何固定大小内存的序列模型不断回归

内存

@TheTuringPost: 为什么 KV cache 是 LLM 速度快的主要原因之一？KV cache 将注意力机制与生成阶段连接起来……

AI记忆开始显得比模型智能更重要

@HaochengXiUCB: 新博客文章：视频与世界模型中的遗忘墙——长时域视频生成不仅仅受限于计算……

提交意见反馈