LMCache/LMCache

GitHub Trending (daily) 工具

kv-cache llm-inference open-source caching management-layer pytorch inference-optimization

摘要

LMCache 是一个开源的KV缓存管理层，用于LLM推理，通过支持跨推理引擎持久化存储和复用KV缓存，减少首Token延迟并提升吞吐量。

LMCache：用最快的KV缓存层为您的LLM注入超强动力

查看原文

查看缓存全文

缓存时间: 2026/06/12 14:50

可扩展LLM推理的KV缓存管理层

博客 | 文档 | 加入Slack | 社区会议 | 路线图

相似文章

X AI KOLs Timeline

LMCache是一个开源库，它使KV缓存持久化并可在请求之间共享，消除了RAG和多轮对话工作负载中的重复计算，实现了高达15倍的吞吐量提升和3-10倍的首令牌时间减少。

X AI KOLs Timeline

本文强调了在生产系统中使用 LLM 缓存的重要性，以减少延迟、GPU 利用率和成本，并介绍了 LMCache，这是一个用于可扩展 LLM 推理的开源 KV 缓存管理层。

X AI KOLs Timeline

本文解释了大语言模型中 KV Cache 的概念，详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算，从而优化文本生成的原理。

X AI KOLs Following

LMCache 是一个开源的 KV 缓存管理层，它将缓存 I/O 与计算分离，可插入 vLLM、SGLang 和 TensorRT-LLM，通过并行化缓存查找和共享 GPU 内存，实现高达 14 倍的首 token 延迟降低和 4 倍的解码加速。

X AI KOLs Timeline

精心整理的资源列表，用于掌握LLM缓存管理，包括关于KV缓存、前缀缓存及相关技术的解释、教程和研究论文。