(又一个)KV 缓存计算器 - kvanta.vcerny.cz
摘要
一款名为 KVANTA 的新开源 KV 缓存计算器工具已发布,支持来自 Hugging Face 的任何 LLM/VLM。
大家好,我觉得所有公开的基于网页的 KV 缓存计算器都有点烂……所以我决定自己创建一个我自己会用得舒服的——KVANTA [https://kvanta.vcerny.cz](https://kvanta.vcerny.cz)。它应该支持来自 Hugging Face 的任何 LLM/VLM,如果不支持请告诉我!(另外,它采用 Apache 2.0 许可证)https://preview.redd.it/rk8i48ftva3h1.png?width=1754&format=png&auto=webp&s=7a2e8908d7d0a6c2efd92be5fb7f0ec548e7aba9
相似文章
KVarN:华为推出的原生 vLLM KV 缓存量化后端
华为 CSL 发布 KVarN,这是一个原生 vLLM 注意力后端,专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升,以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上,其吞吐量最高可达 TurboQuant 的约 2.4 倍,同时保持与 FP16 相当的精度。
KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
proveKV – 诚实的36倍无损(vs f32,18倍 vs fp16)KV缓存压缩用于LLM(零PPL回归)
一个开源仓库proveKV展示了一种可复现的KV缓存压缩技术,在SmolLM2-1.7B上实现了36倍无损(vs f32)和68倍有损内存减少,且PPL回归为零,包括Rust示例和审计管道。
CONF-KV: 置信度感知的KV缓存淘汰与混合精度存储用于长视界大语言模型
CONF-KV 是一种KV缓存管理系统,利用模型不确定性动态调整缓存保留策略,从而提升长上下文大语言模型推理的内存效率,同时将困惑度控制在1.5-2.1个点以内。
动态KV缓存量化与按需加载mmproj/MTP:我的llama.cpp愿望清单
一位开发者已为llama.cpp实现了一个概念验证的PR,通过HTTP端点添加了动态KV缓存量化功能,允许用户按需重新量化其KV缓存,而无需完全重新加载模型。该帖子还概述了一个愿望清单,包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。