chunked-prefill

标签

Cards List
#chunked-prefill

@athleticKoder:一篇关于LLM推理原理的1600字笔记,涵盖:1. 注意力机制——token交互的唯一场所 2. KV缓存——为何...

X AI KOLs Timeline · 3天前 缓存

一篇详细阐述LLM推理关键概念的推文:注意力机制、KV缓存、分块预填充以及批处理技术,包括vLLM和SGLang中使用的连续批处理。

0 人收藏 0 人点赞
#chunked-prefill

CompactAttention: 通过块合并KV选择加速分块预填充

Hugging Face Daily Papers · 2026-05-16 缓存

CompactAttention引入块合并KV选择机制,加速长上下文LLM的分块预填充,在LLaMA-3.1-8B模型128K上下文下实现最高2.72倍注意力加速,同时保持与稠密注意力相近的精度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈