kv-cache

#kv-cache

@che_shr_cat: 1/ 多年来我们一直通过头部共享（GQA/MQA）来优化KV缓存，但我们忽略了一个基本假设：为什么……

X AI KOLs Timeline ↗ · 6小时前缓存

这条推文挑战了关于Transformer需要独立的Q、K和V投影的基本假设，提出合并它们可以为KV缓存带来巨大的内存节省。

0 人收藏 0 人点赞

#kv-cache

@rohanpaul_ai: 有趣，这篇论文表明Transformer可能不需要独立的键和值投影就能表现良好。这篇论文…

X AI KOLs Timeline ↗ · 13小时前缓存

本论文研究了Transformer是否需要独立的键和值投影，发现共享它们可将KV缓存减少50%，而困惑度仅增加3.1%，并且与GQA和MQA结合时进一步减少。

0 人收藏 0 人点赞

#kv-cache

OmniMem: 面向流式音视频大模型的扰动感知记忆压缩

arXiv cs.AI ↗ · 20小时前缓存

OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略，在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。

0 人收藏 0 人点赞

#kv-cache

语义缓存蒸馏：通过重用与选择性修补实现高效状态转移

arXiv cs.LG ↗ · 20小时前缓存

本文提出语义缓存蒸馏（SCD），一种带损失约束的框架，用紧凑的语义码替换原始KV缓存传输，在保持生成质量在oracle的5% F1内的同时，实现高达2.65倍的TTFT加速。

0 人收藏 0 人点赞

#kv-cache

kv-cache : 避免kv cells复制 by ggerganov · Pull Request #24277 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 昨天缓存

ggerganov的此pull request优化了llama.cpp中的kv-cache，以避免不必要的kv cells复制，从而提升推理性能。这是对开源LLM推理库llama.cpp的一个贡献。

0 人收藏 0 人点赞

#kv-cache

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现闪电索引超长上下文

Hugging Face Daily Papers ↗ · 2天前缓存

提出在DeepSeek-V4上结合神经记忆索引器的前瞻稀疏注意力，将GPU内存使用降至全上下文基线的约13.5%，同时保持或略微提升准确率。

0 人收藏 0 人点赞

#kv-cache

也许将KV缓存卸载到RAM并不差

Reddit r/LocalLLaMA ↗ · 4天前

一位用户分享了在llama.cpp中将KV缓存卸载到RAM的经验，在释放显存以便运行更大模型和上下文窗口的同时，实现了相近的速度，表明这种权衡通常是值得的。

0 人收藏 0 人点赞

#kv-cache

超越标记：基于LLM的多智能体系统中潜在通信的统一框架

arXiv cs.CL ↗ · 4天前缓存

本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架，按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类，并回顾了2024至2026年间的十八种代表性方法。

0 人收藏 0 人点赞

#kv-cache

从KV缓存压缩的角度重新思考LoRA内存

arXiv cs.CL ↗ · 4天前缓存

本文研究了文档级问答中参数侧内存（LoRA适配器）与上下文侧内存（KV缓存）之间的交互。研究发现，当KV缓存被大幅压缩时，文档LoRA变得最有价值，可恢复13–21个ROUGE-L点，并且经过问答监督的适配器优于基于下一词预测的适配器。

0 人收藏 0 人点赞

#kv-cache

proveKV – 诚实的36倍无损（vs f32，18倍 vs fp16）KV缓存压缩用于LLM（零PPL回归）

Reddit r/LocalLLaMA ↗ · 4天前

一个开源仓库proveKV展示了一种可复现的KV缓存压缩技术，在SmolLM2-1.7B上实现了36倍无损（vs f32）和68倍有损内存减少，且PPL回归为零，包括Rust示例和审计管道。

0 人收藏 0 人点赞

#kv-cache

Transformer 真的需要三个投影矩阵吗？QKV 变体的系统性研究

Hacker News Top ↗ · 5天前缓存

本文系统研究了 Transformer 中 QKV 投影共享的各种变体，发现共享键和值投影（Q-K=V）可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩，结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。

0 人收藏 0 人点赞

#kv-cache

你们是对的 - Qwen 3.6 35B 确实不错...而且 KV 缓存确实重要。

Reddit r/LocalLLaMA ↗ · 5天前

一位用户分享了自己的发现：Qwen 3.6 35B 在智能体任务中优于 27B 模型，并将差异主要归因于 KV 缓存压缩质量。他们还从 LM Studio 切换到了 llama.cpp 以更好地管理上下文。

0 人收藏 0 人点赞

#kv-cache

动态KV缓存量化与按需加载mmproj/MTP：我的llama.cpp愿望清单

Reddit r/LocalLLaMA ↗ · 5天前

一位开发者已为llama.cpp实现了一个概念验证的PR，通过HTTP端点添加了动态KV缓存量化功能，允许用户按需重新量化其KV缓存，而无需完全重新加载模型。该帖子还概述了一个愿望清单，包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。

0 人收藏 0 人点赞

#kv-cache

@AndrewYNg：全新课程：高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务…

X AI KOLs Following ↗ · 5天前缓存

Andrew Ng 与 DeepLearning.AI 联合 Red Hat 推出了一门关于使用 vLLM 进行高效 LLM 推理的短期课程，内容涵盖量化、PagedAttention、连续批处理以及大规模 LLM 服务的性能基准测试。

0 人收藏 0 人点赞

#kv-cache

@JakeKAllDay: 华为发布了一篇关于一种名为KVarN的新型KV压缩方法的论文：它证明了低至 2 bit 量化时损失极小…

X AI KOLs Timeline ↗ · 5天前缓存

华为发布了一篇关于KVarN的论文，这是一种新型KV缓存压缩方法，在2位量化下与FP16相比实现了极小损失，优于TurboQuant和KIVI等方法，且几乎不引入推理延迟。

0 人收藏 0 人点赞

#kv-cache

KVarN：华为推出的原生 vLLM KV 缓存量化后端

Hacker News Top ↗ · 5天前缓存

华为 CSL 发布 KVarN，这是一个原生 vLLM 注意力后端，专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升，以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上，其吞吐量最高可达 TurboQuant 的约 2.4 倍，同时保持与 FP16 相当的精度。

0 人收藏 0 人点赞

#kv-cache

AI成本的很大一部分只是模型一遍又一遍地重读相同的文本。有趣的修复尝试，带有公开证明

Reddit r/ArtificialInteligence ↗ · 5天前

Corbenic AI声称为大语言模型提供无损KV缓存重用，允许存储的模型内存在不同机器和GPU代际之间逐比特恢复，并通过公开校验和进行验证。该项目包括一个开源的小模型，训练成本约600欧元，使整个流程可审查。

0 人收藏 0 人点赞

#kv-cache

大规模Cartridge：在海量文档集合上训练模块化KV缓存

arXiv cs.CL ↗ · 5天前缓存

来自Amazon AGI的研究人员提出了Cartridges at Scale（CAS），这是一个将文档集合提炼为模块化、可复用KV缓存的训练框架，支持对超过百万token的文档集合进行可扩展的多Cartridge学习。CAS在整体式Cartridge基线上提升了10至31个百分点，同时在准确率上与传统RAG持平甚至超越，而所消耗的提示token数量减少了3至4倍。

0 人收藏 0 人点赞

#kv-cache

SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

arXiv cs.CL ↗ · 5天前缓存

SparDA 提出了一种解耦稀疏注意力架构，通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求，从而实现从 CPU 到 GPU 的预取（lookahead prefetching），并降低选择开销。在基于稀疏预训练的 8B 模型上，其 prefill 速度最高可提升 1.25×，decode 速度最高可提升 1.7×，相比非 offload 基线，decode 吞吐量最高可提升 5.3×。

0 人收藏 0 人点赞

#kv-cache

LazyAttention：通过延迟位置编码实现高效检索增强生成

arXiv cs.CL ↗ · 5天前缓存

LazyAttention 提出了一种新颖的注意力机制，通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下，该方法与 Block-Attention 相比，首 token 生成时间缩短至原来的 1/1.37×，推理吞吐量提升 1.40×。

0 人收藏 0 人点赞

kv-cache

提交意见反馈