entropy-guided

标签

Cards List
#entropy-guided

SeKV:面向长上下文LLM推理的分辨率自适应KV缓存与分层语义记忆

arXiv cs.CL · 12小时前 缓存

SeKV是一种分辨率自适应的KV缓存方法,它将上下文组织成基于熵引导的语义片段,并存储在GPU-CPU层级结构中,从而在解码过程中实现选择性Token级重建,同时在128K上下文下相比全缓存减少53.3%的GPU内存占用。

0 人收藏 0 人点赞
#entropy-guided

EntMTP:利用熵引导的多令牌预测加速大语言模型推理

arXiv cs.CL · 2天前 缓存

提出EntMTP,一种无需训练的调度器,基于局部熵估计自适应调整树形注意力拓扑以进行投机解码,相较于Hydra实现1.09-1.15倍加速,相较于Medusa最高达1.36倍加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈