标签
JetSpec引入了并行树草案技术用于推测解码,在保持无损准确性的同时,实现了LLM推理高达9.64倍的端到端加速,单块B200 GPU上吞吐量达到约1000 TPS。
JetFlow是一个推测解码框架,通过结合单次前向草稿效率与分支级因果条件,打破了缩放天花板,在数学基准上实现了高达9.64倍的加速,并在密集型和MoE Qwen3模型上优于先前方法。