标签
vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用,支持跨节点前缀缓存,高效服务具有高令牌重用的代理工作负载。
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。