@nathanrs: 新帖子!扩散LLM的一个缺点是双向注意力机制导致键值跨步骤漂移,破…

X AI KOLs Timeline 论文

摘要

一篇新帖子强调了扩散LLM的一个缺点:双向注意力机制导致键值跨步骤漂移,破坏了KV缓存。不过,生成质量对轻微的KV漂移具有鲁棒性,研究重点已放在最大化陈旧KV重用而不导致质量下降上。

新帖子!扩散LLM的一个缺点是双向注意力机制导致键值跨步骤漂移,破坏了KV缓存。但生成质量对轻微的KV漂移具有鲁棒性,而且已经有很多工作致力于最大化陈旧KV的重用而不引起质量下降 (1/3) https://t.co/C7AAzjkUJ8
查看原文
查看缓存全文

缓存时间: 2026/06/29 02:22

新帖!扩散LLM的一个缺点是双向注意力导致键和值在步骤间漂移,破坏了KV缓存。但生成质量对轻微KV漂移具有鲁棒性,并且已有大量工作致力于最大化陈旧KV的重用而不引起质量下降(1/3)

向文本添加噪声最常见的方式是掩码(用[MASK]标记替换干净标记)和均匀噪声(用随机标记替换)。二者有许多不同的属性,且尚不清楚前者的缓存策略是否适用于后者(2/3)

事实证明是适用的,原因有两个且与噪声过程无关:解码偏好从左到右(紧邻已解析标记的位置置信度最高),以及状态转换对KV漂移的影响是局部的。因此,掩码缓存策略似乎能推广到其他噪声类型(3/3)

在此阅读全文:

相似文章

为扩散语言模型启用共享前缀的KV缓存

arXiv cs.LG

本文提出BiCache,一种面向扩散语言模型共享前缀的新型KV缓存技术,通过动态重用浅层中缓存的键和值来避免精度崩溃,并实现36.3%–98.3%的吞吐量提升。

内存

Reddit r/artificial

解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。