标签
本文介绍了EpiKV,一种基于内部表征变化(顿悟分数)而非注意力权重来评估token重要性的KV缓存淘汰方法,无需具体化注意力矩阵。该方法在推理基准测试中取得了具有竞争力的性能,同时支持长达16倍的上下文长度。
探讨了Transformer推理中KV缓存日益增长的内存瓶颈,解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。
Dustin提出了一种用于推测解码的稀疏验证框架,利用草稿模型信号和稀疏注意力头评分克服KV缓存验证瓶颈,在长上下文任务中自注意力加速达27.85倍,端到端解码加速达9.17倍,且精度损失可忽略不计。
DualPath是一种通过引入双路径KV-cache加载机制来打破智能体LLM推理中存储带宽瓶颈的系统,离线吞吐量提升可达1.87倍,在线吞吐量提升可达1.96倍。
文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈,特别是LLM中softmax注意力的KV缓存,并强调了旨在减少内存使用的后Transformer架构,如线性注意力和状态空间模型。
提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过为高能量RoPE块分配更多比特,提升长上下文性能与内存效率。
介绍了Nexus Sampling,一种无需训练的KV-cache驱逐方法,采用加权蓄水池采样代替确定性top-k选择,在固定内存预算下提升了长上下文LLM推理性能,在80%驱逐率下达到与密集注意力相匹配的性能。
LMCache是一个开源库,它使KV缓存持久化并可在请求之间共享,消除了RAG和多轮对话工作负载中的重复计算,实现了高达15倍的吞吐量提升和3-10倍的首令牌时间减少。
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
本文解释了vLLM用于强化学习的权重同步API,涵盖了它如何促进RL训练中的权重更新和KV缓存重计算,重点关注降低训练框架的复杂性。
PaddlePaddle发布了Unlimited-OCR,一种新的OCR模型,使用参考滑动窗口注意力(R-SWA)在解码过程中保持恒定的KV缓存,在OmniDocBench上达到了93%的准确率,相比之前的方法提升了6%。
Unlimited OCR 引入了 Reference Sliding Window Attention,以消除长序列 OCR 任务中不断增长的内存消耗,从而能够在单次前向传播中高效转录多页文档。
一本正在编写中的开放手册,解释LLM推理内部机制,包括GPU内存层次结构、KV缓存、批处理以及vLLM和TensorRT-LLM等流行推理引擎。
LMCache 是一个 KV 缓存管理层,通过缓存并复用 KV cache 来加速大模型推理、降低显存消耗,已获 9.2K star 并加入 PyTorch 基金会,被 NVIDIA Dynamo 集成。
在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率,使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。
提出距离自适应表示(DAR),该方法对远距离token降低键值维度,同时保留附近token的全维度,在不损失性能的前提下提升KV缓存效率。
一项实证研究,研究长篇幅、语义密集的良性文本如何偏移模型的潜在空间轨迹,稀释初始系统提示,并绕过训练后对齐约束——如在闭源和开源模型中所观察到的那样。
一篇详细的博客文章,解释了 vLLM 的工作原理,包括 PagedAttention、KV 缓存管理和连续批处理,以实现高效的 LLM 服务。
本文提出,Transformer中的KV缓存充当了记忆化结论的笔记本,使得无需完全重计算即可进行精确编辑和组合。该方法在保持跨模型规模决策等价性的同时,实现了显著的延迟降低。
一个自定义的FPGA实现,在80 MHz下运行带KV缓存的Transformer,实现每秒56,000 tokens,在微型LCD上运行microGPT。