(又一个)KV 缓存计算器 - kvanta.vcerny.cz

Reddit r/LocalLLaMA 工具

摘要

一款名为 KVANTA 的新开源 KV 缓存计算器工具已发布,支持来自 Hugging Face 的任何 LLM/VLM。

大家好,我觉得所有公开的基于网页的 KV 缓存计算器都有点烂……所以我决定自己创建一个我自己会用得舒服的——KVANTA [https://kvanta.vcerny.cz](https://kvanta.vcerny.cz)。它应该支持来自 Hugging Face 的任何 LLM/VLM,如果不支持请告诉我!(另外,它采用 Apache 2.0 许可证)https://preview.redd.it/rk8i48ftva3h1.png?width=1754&format=png&auto=webp&s=7a2e8908d7d0a6c2efd92be5fb7f0ec548e7aba9
查看原文

相似文章

KVarN:华为推出的原生 vLLM KV 缓存量化后端

Hacker News Top

华为 CSL 发布 KVarN,这是一个原生 vLLM 注意力后端,专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升,以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上,其吞吐量最高可达 TurboQuant 的约 2.4 倍,同时保持与 FP16 相当的精度。

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

动态KV缓存量化与按需加载mmproj/MTP:我的llama.cpp愿望清单

Reddit r/LocalLLaMA

一位开发者已为llama.cpp实现了一个概念验证的PR,通过HTTP端点添加了动态KV缓存量化功能,允许用户按需重新量化其KV缓存,而无需完全重新加载模型。该帖子还概述了一个愿望清单,包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。