serving-optimization

#serving-optimization

为扩散语言模型启用共享前缀的KV缓存

arXiv cs.LG ↗ · 3天前缓存

本文提出BiCache，一种面向扩散语言模型共享前缀的新型KV缓存技术，通过动态重用浅层中缓存的键和值来避免精度崩溃，并实现36.3%–98.3%的吞吐量提升。

0 人收藏 0 人点赞