标签
这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设,提出合并它们可以为KV缓存带来巨大的内存节省。
本论文研究了Transformer是否需要独立的键和值投影,发现共享它们可将KV缓存减少50%,而困惑度仅增加3.1%,并且与GQA和MQA结合时进一步减少。
OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略,在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。
本文提出语义缓存蒸馏(SCD),一种带损失约束的框架,用紧凑的语义码替换原始KV缓存传输,在保持生成质量在oracle的5% F1内的同时,实现高达2.65倍的TTFT加速。
ggerganov的此pull request优化了llama.cpp中的kv-cache,以避免不必要的kv cells复制,从而提升推理性能。这是对开源LLM推理库llama.cpp的一个贡献。
提出在DeepSeek-V4上结合神经记忆索引器的前瞻稀疏注意力,将GPU内存使用降至全上下文基线的约13.5%,同时保持或略微提升准确率。
一位用户分享了在llama.cpp中将KV缓存卸载到RAM的经验,在释放显存以便运行更大模型和上下文窗口的同时,实现了相近的速度,表明这种权衡通常是值得的。
本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架,按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类,并回顾了2024至2026年间的十八种代表性方法。
本文研究了文档级问答中参数侧内存(LoRA适配器)与上下文侧内存(KV缓存)之间的交互。研究发现,当KV缓存被大幅压缩时,文档LoRA变得最有价值,可恢复13–21个ROUGE-L点,并且经过问答监督的适配器优于基于下一词预测的适配器。
一个开源仓库proveKV展示了一种可复现的KV缓存压缩技术,在SmolLM2-1.7B上实现了36倍无损(vs f32)和68倍有损内存减少,且PPL回归为零,包括Rust示例和审计管道。
本文系统研究了 Transformer 中 QKV 投影共享的各种变体,发现共享键和值投影(Q-K=V)可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩,结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。
一位用户分享了自己的发现:Qwen 3.6 35B 在智能体任务中优于 27B 模型,并将差异主要归因于 KV 缓存压缩质量。他们还从 LM Studio 切换到了 llama.cpp 以更好地管理上下文。
一位开发者已为llama.cpp实现了一个概念验证的PR,通过HTTP端点添加了动态KV缓存量化功能,允许用户按需重新量化其KV缓存,而无需完全重新加载模型。该帖子还概述了一个愿望清单,包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。
Andrew Ng 与 DeepLearning.AI 联合 Red Hat 推出了一门关于使用 vLLM 进行高效 LLM 推理的短期课程,内容涵盖量化、PagedAttention、连续批处理以及大规模 LLM 服务的性能基准测试。
华为发布了一篇关于KVarN的论文,这是一种新型KV缓存压缩方法,在2位量化下与FP16相比实现了极小损失,优于TurboQuant和KIVI等方法,且几乎不引入推理延迟。
华为 CSL 发布 KVarN,这是一个原生 vLLM 注意力后端,专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升,以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上,其吞吐量最高可达 TurboQuant 的约 2.4 倍,同时保持与 FP16 相当的精度。
Corbenic AI声称为大语言模型提供无损KV缓存重用,允许存储的模型内存在不同机器和GPU代际之间逐比特恢复,并通过公开校验和进行验证。该项目包括一个开源的小模型,训练成本约600欧元,使整个流程可审查。
来自Amazon AGI的研究人员提出了Cartridges at Scale(CAS),这是一个将文档集合提炼为模块化、可复用KV缓存的训练框架,支持对超过百万token的文档集合进行可扩展的多Cartridge学习。CAS在整体式Cartridge基线上提升了10至31个百分点,同时在准确率上与传统RAG持平甚至超越,而所消耗的提示token数量减少了3至4倍。
SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。
LazyAttention 提出了一种新颖的注意力机制,通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下,该方法与 Block-Attention 相比,首 token 生成时间缩短至原来的 1/1.37×,推理吞吐量提升 1.40×。