serving-framework

标签

Cards List
#serving-framework

Tangram:解锁非均匀KV缓存压缩,实现高效的多轮LLM服务

Hugging Face Daily Papers · 2026-06-15 缓存

本文介绍了Tangram,一个服务框架,它静态解析多轮LLM服务中的非均匀KV缓存压缩,相比全KV基线实现了高达2.6倍的吞吐量提升,同时消除了运行时开销。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈