@m_sirovatka: KV Cache 重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 集成到 prime-rl 中，与 vL…

X AI KOLs Following 2026/06/02 17:29 工具

kv-cache cache-reuse agentic-workloads vllm mooncake distributed-inference prefix-caching

摘要

vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用，支持跨节点前缀缓存，高效服务具有高令牌重用的代理工作负载。

KV 缓存重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 与 vLLM 集成到 prime-rl 中，您现在可以将其用作本地 CPU/磁盘卸载的直接替代方案，实现跨节点前缀缓存重用，让您的代理飞速运行🚀

查看原文

查看缓存全文

缓存时间: 2026/06/03 21:55

KV 缓存复用是代理型部署中最关键的部分。我们已经将 Mooncake Store 集成到 prime-rl 与 vLLM 中，现在你可以将其作为原生 CPU/磁盘卸载的即插即用替代方案，实现跨节点前缀缓存复用，让你的代理飞速运行 🚀

vLLM (@vllm_project): 🚀 @vllm_project 博客新文章：使用 vLLM × Mooncake 大规模服务代理型工作负载。

代理型追踪会增长到 80K+ token，其中 94%+ 是可复用前缀，但本地 KV 缓存会将其驱逐，跨实例路由也无法命中。

通过将 Mooncake Store 集成为分布式 KV

@m_sirovatka: KV Cache 重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 集成到 prime-rl 中，与 vL…

相似文章

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

ObjectCache: 用于KV缓存重用的分层对象存储检索

@pallavishekhar_: 大语言模型中的 KV Cache，阅读链接：https://outcomeschool.com/blog/kv-cache-in-llms…

动态KV缓存量化与按需加载mmproj/MTP：我的llama.cpp愿望清单

llama.cpp 有一个加速 KV 缓存解码的巧妙技巧

提交意见反馈