parallel-tree-drafting

#parallel-tree-drafting

[研究] JetSpec：通过并行树草案实现推测解码，最高可达9.64倍无损LLM推理加速，超过1000TPS

Reddit r/LocalLLaMA ↗ · 3天前

JetSpec引入了并行树草案技术用于推测解码，在保持无损准确性的同时，实现了LLM推理高达9.64倍的端到端加速，单块B200 GPU上吞吐量达到约1000 TPS。

0 人收藏 0 人点赞

#parallel-tree-drafting

arXiv cs.CL ↗ · 2026-06-18 缓存

JetFlow是一个推测解码框架，通过结合单次前向草稿效率与分支级因果条件，打破了缩放天花板，在数学基准上实现了高达9.64倍的加速，并在密集型和MoE Qwen3模型上优于先前方法。

0 人收藏 0 人点赞