@m_sirovatka: KV Cache 重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 集成到 prime-rl 中,与 vL…

X AI KOLs Following 工具

摘要

vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用,支持跨节点前缀缓存,高效服务具有高令牌重用的代理工作负载。

KV 缓存重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 与 vLLM 集成到 prime-rl 中,您现在可以将其用作本地 CPU/磁盘卸载的直接替代方案,实现跨节点前缀缓存重用,让您的代理飞速运行🚀
查看原文
查看缓存全文

缓存时间: 2026/06/03 21:55

KV 缓存复用是代理型部署中最关键的部分。我们已经将 Mooncake Store 集成到 prime-rl 与 vLLM 中,现在你可以将其作为原生 CPU/磁盘卸载的即插即用替代方案,实现跨节点前缀缓存复用,让你的代理飞速运行 🚀

vLLM (@vllm_project): 🚀 @vllm_project 博客新文章:使用 vLLM × Mooncake 大规模服务代理型工作负载。

代理型追踪会增长到 80K+ token,其中 94%+ 是可复用前缀,但本地 KV 缓存会将其驱逐,跨实例路由也无法命中。

通过将 Mooncake Store 集成为分布式 KV

相似文章

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

ObjectCache: 用于KV缓存重用的分层对象存储检索

arXiv cs.AI

ObjectCache提出使用S3兼容的对象存储来实现LLM KV缓存的重用,以降低成本并增加容量,同时通过协同设计的存储协议和传输调度将延迟开销降至最低。实验表明,对于64K上下文,相比本地DRAM仅增加5.6%的延迟。

动态KV缓存量化与按需加载mmproj/MTP:我的llama.cpp愿望清单

Reddit r/LocalLLaMA

一位开发者已为llama.cpp实现了一个概念验证的PR,通过HTTP端点添加了动态KV缓存量化功能,允许用户按需重新量化其KV缓存,而无需完全重新加载模型。该帖子还概述了一个愿望清单,包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。

llama.cpp 有一个加速 KV 缓存解码的巧妙技巧

Reddit r/LocalLLaMA

llama.cpp 的 webUI 中有一个设置,它会将生成的 token 重新发送到 KV 缓存,从而显著减少提示处理延迟,提高长生成或工具调用的响应速度,且没有明显的权衡。