LMCache/LMCache

GitHub Trending (daily) 工具

摘要

LMCache 是一个开源的KV缓存管理层,用于LLM推理,通过支持跨推理引擎持久化存储和复用KV缓存,减少首Token延迟并提升吞吐量。

LMCache:用最快的KV缓存层为您的LLM注入超强动力
查看原文
查看缓存全文

缓存时间: 2026/06/12 14:50

可扩展LLM推理的KV缓存管理层

博客 | 文档 | 加入Slack | 社区会议 | 路线图

相似文章

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。