parallel-tree-drafting

标签

Cards List
#parallel-tree-drafting

[研究] JetSpec:通过并行树草案实现推测解码,最高可达9.64倍无损LLM推理加速,超过1000TPS

Reddit r/LocalLLaMA · 3天前

JetSpec引入了并行树草案技术用于推测解码,在保持无损准确性的同时,实现了LLM推理高达9.64倍的端到端加速,单块B200 GPU上吞吐量达到约1000 TPS。

0 人收藏 0 人点赞
#parallel-tree-drafting

JetFlow:通过并行树草稿打破推测解码的缩放天花板

arXiv cs.CL · 2026-06-18 缓存

JetFlow是一个推测解码框架,通过结合单次前向草稿效率与分支级因果条件,打破了缩放天花板,在数学基准上实现了高达9.64倍的加速,并在密集型和MoE Qwen3模型上优于先前方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈