cache-sharing

标签

Cards List
#cache-sharing

RKSC: 面向多步LLM推理的推理感知KV缓存共享与自信提前退出

arXiv cs.LG · 2天前 缓存

介绍了RKSC,一个无需训练的推理框架,用于多分支LLM推理,通过基于相似度的共享和提前退出减少KV缓存冗余,实现最高3倍加速且错误率极低。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈