token-level-reconstruction

#token-level-reconstruction

SeKV：面向长上下文LLM推理的分辨率自适应KV缓存与分层语义记忆

arXiv cs.CL ↗ · 11小时前缓存

SeKV是一种分辨率自适应的KV缓存方法，它将上下文组织成基于熵引导的语义片段，并存储在GPU-CPU层级结构中，从而在解码过程中实现选择性Token级重建，同时在128K上下文下相比全缓存减少53.3%的GPU内存占用。

0 人收藏 0 人点赞