@nathanrs: 新帖子!扩散LLM的一个缺点是双向注意力机制导致键值跨步骤漂移,破…
摘要
一篇新帖子强调了扩散LLM的一个缺点:双向注意力机制导致键值跨步骤漂移,破坏了KV缓存。不过,生成质量对轻微的KV漂移具有鲁棒性,研究重点已放在最大化陈旧KV重用而不导致质量下降上。
查看缓存全文
缓存时间: 2026/06/29 02:22
新帖!扩散LLM的一个缺点是双向注意力导致键和值在步骤间漂移,破坏了KV缓存。但生成质量对轻微KV漂移具有鲁棒性,并且已有大量工作致力于最大化陈旧KV的重用而不引起质量下降(1/3)
向文本添加噪声最常见的方式是掩码(用[MASK]标记替换干净标记)和均匀噪声(用随机标记替换)。二者有许多不同的属性,且尚不清楚前者的缓存策略是否适用于后者(2/3)
事实证明是适用的,原因有两个且与噪声过程无关:解码偏好从左到右(紧邻已解析标记的位置置信度最高),以及状态转换对KV漂移的影响是局部的。因此,掩码缓存策略似乎能推广到其他噪声类型(3/3)
在此阅读全文:
相似文章
@TheTuringPost: 为什么 KV cache 是 LLM 速度快的主要原因之一?KV cache 将注意力机制与生成阶段连接起来……
KV cache 在自回归生成过程中存储先前计算的键向量和值向量,使模型能够避免在每一步重新计算整个序列,从而显著加速推理,但代价是内存使用增加。
有趣的 BDH 之问:如果 LLM 的记忆驻留在网络权重中,而非不断膨胀的 KV cache 里,会怎样?
本文分析了 Jan Chorowski 提出的 BDH 架构方案,该方案探讨了一种替代传统 KV cache 的思路:利用稀疏高维 key-query 空间,将 LLM 的记忆直接嵌入到网络权重中。
为扩散语言模型启用共享前缀的KV缓存
本文提出BiCache,一种面向扩散语言模型共享前缀的新型KV缓存技术,通过动态重用浅层中缓存的键和值来避免精度崩溃,并实现36.3%–98.3%的吞吐量提升。
@pallavishekhar_: 大语言模型中的 KV Cache,阅读链接:https://outcomeschool.com/blog/kv-cache-in-llms…
本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。
内存
解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。