标签
SeKV是一种分辨率自适应的KV缓存方法,它将上下文组织成基于熵引导的语义片段,并存储在GPU-CPU层级结构中,从而在解码过程中实现选择性Token级重建,同时在128K上下文下相比全缓存减少53.3%的GPU内存占用。