LMCache/LMCache
摘要
LMCache 是一个开源的KV缓存管理层,用于LLM推理,通过支持跨推理引擎持久化存储和复用KV缓存,减少首Token延迟并提升吞吐量。
LMCache:用最快的KV缓存层为您的LLM注入超强动力
查看缓存全文
缓存时间: 2026/06/12 14:50
可扩展LLM推理的KV缓存管理层
博客 | 文档 | 加入Slack | 社区会议 | 路线图
相似文章
@pallavishekhar_: 大语言模型中的 KV Cache,阅读链接:https://outcomeschool.com/blog/kv-cache-in-llms…
本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。
TTKV:面向长上下文LLM推理的时间分层KV缓存
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
KV缓存正成为推理的内存层级结构
文章讨论了KV缓存如何演变为LLM推理的内存层级结构,优化解码过程中的内存管理。
@Michaelzsguo: 发现了一个对你的本地LLM推理优化很有用的工具:https://kvcache.ai/tools/kv-cache-ca…
一条推文分享了来自KVCache.ai的KV缓存大小计算器,这是一个用于估算本地LLM推理中KV缓存内存使用量的工具,并强调DeepSeek V4 Pro的100万token仅使用5GB内存。