标签
一篇详细阐述LLM推理关键概念的推文:注意力机制、KV缓存、分块预填充以及批处理技术,包括vLLM和SGLang中使用的连续批处理。
CompactAttention引入块合并KV选择机制,加速长上下文LLM的分块预填充,在LLaMA-3.1-8B模型128K上下文下实现最高2.72倍注意力加速,同时保持与稠密注意力相近的精度。