（又一个）KV 缓存计算器 - kvanta.vcerny.cz

Reddit r/LocalLLaMA 2026/05/25 15:17 工具

kv-cache llm vlm calculator open-source hugging-face

摘要

一款名为 KVANTA 的新开源 KV 缓存计算器工具已发布，支持来自 Hugging Face 的任何 LLM/VLM。

大家好，我觉得所有公开的基于网页的 KV 缓存计算器都有点烂……所以我决定自己创建一个我自己会用得舒服的——KVANTA [https://kvanta.vcerny.cz](https://kvanta.vcerny.cz)。它应该支持来自 Hugging Face 的任何 LLM/VLM，如果不支持请告诉我！（另外，它采用 Apache 2.0 许可证）https://preview.redd.it/rk8i48ftva3h1.png?width=1754&format=png&auto=webp&s=7a2e8908d7d0a6c2efd92be5fb7f0ec548e7aba9

查看原文

相似文章

KVarN：华为推出的原生 vLLM KV 缓存量化后端

Hacker News Top

华为 CSL 发布 KVarN，这是一个原生 vLLM 注意力后端，专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升，以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上，其吞吐量最高可达 TurboQuant 的约 2.4 倍，同时保持与 FP16 相当的精度。

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架，用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性，消除了开销，同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

proveKV – 诚实的36倍无损（vs f32，18倍 vs fp16）KV缓存压缩用于LLM（零PPL回归）

Reddit r/LocalLLaMA

一个开源仓库proveKV展示了一种可复现的KV缓存压缩技术，在SmolLM2-1.7B上实现了36倍无损（vs f32）和68倍有损内存减少，且PPL回归为零，包括Rust示例和审计管道。

CONF-KV: 置信度感知的KV缓存淘汰与混合精度存储用于长视界大语言模型

Hugging Face Daily Papers

CONF-KV 是一种KV缓存管理系统，利用模型不确定性动态调整缓存保留策略，从而提升长上下文大语言模型推理的内存效率，同时将困惑度控制在1.5-2.1个点以内。

动态KV缓存量化与按需加载mmproj/MTP：我的llama.cpp愿望清单