@nathanrs: 新帖子！扩散LLM的一个缺点是双向注意力机制导致键值跨步骤漂移，破…

X AI KOLs Timeline 2026/06/28 19:20 论文

diffusion-llms bidirectional-attention kv-caching kv-drift generation-quality model-efficiency

摘要

一篇新帖子强调了扩散LLM的一个缺点：双向注意力机制导致键值跨步骤漂移，破坏了KV缓存。不过，生成质量对轻微的KV漂移具有鲁棒性，研究重点已放在最大化陈旧KV重用而不导致质量下降上。

新帖子！扩散LLM的一个缺点是双向注意力机制导致键值跨步骤漂移，破坏了KV缓存。但生成质量对轻微的KV漂移具有鲁棒性，而且已经有很多工作致力于最大化陈旧KV的重用而不引起质量下降 (1/3) https://t.co/C7AAzjkUJ8

查看原文

查看缓存全文

缓存时间: 2026/06/29 02:22

新帖！扩散LLM的一个缺点是双向注意力导致键和值在步骤间漂移，破坏了KV缓存。但生成质量对轻微KV漂移具有鲁棒性，并且已有大量工作致力于最大化陈旧KV的重用而不引起质量下降（1/3）

向文本添加噪声最常见的方式是掩码（用[MASK]标记替换干净标记）和均匀噪声（用随机标记替换）。二者有许多不同的属性，且尚不清楚前者的缓存策略是否适用于后者（2/3）

事实证明是适用的，原因有两个且与噪声过程无关：解码偏好从左到右（紧邻已解析标记的位置置信度最高），以及状态转换对KV漂移的影响是局部的。因此，掩码缓存策略似乎能推广到其他噪声类型（3/3）

在此阅读全文：

相似文章

X AI KOLs Timeline

KV cache 在自回归生成过程中存储先前计算的键向量和值向量，使模型能够避免在每一步重新计算整个序列，从而显著加速推理，但代价是内存使用增加。

Reddit r/singularity

本文分析了 Jan Chorowski 提出的 BDH 架构方案，该方案探讨了一种替代传统 KV cache 的思路：利用稀疏高维 key-query 空间，将 LLM 的记忆直接嵌入到网络权重中。

arXiv cs.LG

本文提出BiCache，一种面向扩散语言模型共享前缀的新型KV缓存技术，通过动态重用浅层中缓存的键和值来避免精度崩溃，并实现36.3%–98.3%的吞吐量提升。

X AI KOLs Timeline

本文解释了大语言模型中 KV Cache 的概念，详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算，从而优化文本生成的原理。

Reddit r/artificial

解释了为什么由于KV缓存随上下文长度和并发用户数扩展，LLM推理越来越受内存带宽限制，以及像vLLM和PagedAttention这样的系统如何提高内存利用率。