标签
PartRep提出了一种针对仅解码器LLM的选择性提示重复方法,仅追加最有信息量的令牌(通过NLL选择),而非完整提示,从而减少KV缓存和预填充FLOPs,同时在多个基准测试上保留大部分准确率提升。
本文研究了利用连续嵌入空间优化从仅解码器语言模型的最后一层隐藏状态恢复输入令牌序列的问题,揭示了高频功能词是主要失败点,而内容词几乎完美恢复,实现了高达97.5%的精确匹配率。
本文介绍了 SPEED,一种层非对称 KV 可见性策略,通过仅在预填阶段的下层处理提示 token,同时在解码阶段保持全深度注意力,从而降低长上下文推理的成本。
River-LLM 提出一种无需训练的 decoder-only 大模型早退框架,通过 KV 共享消除 KV-cache 缺口,在无损质量的前提下实现 1.71–2.16 倍推理加速。