标签
作者对键值缓存量化(q4_0)即使在长上下文窗口下依然有效感到惊讶,并引用了从 10 万上下文中准确检索的结果。
介绍了KV-Compression Aware Training (KV-CAT) 方法,该方法鼓励Transformer在训练过程中学习可压缩的键值缓存,在不牺牲性能的情况下提高长上下文任务的记忆效率。
提出了自剪枝键值注意力(SP-KV),一种通过学习预测键值对未来效用的机制,动态剪枝KV缓存,将内存使用和解码速度提升3-10倍,且性能下降极小。模型和效用预测器通过下一词元预测进行端到端联合训练。