causal-tree

标签

Cards List
#causal-tree

[研究] JetSpec:通过并行树草案实现推测解码,最高可达9.64倍无损LLM推理加速,超过1000TPS

Reddit r/LocalLLaMA · 3天前

JetSpec引入了并行树草案技术用于推测解码,在保持无损准确性的同时,实现了LLM推理高达9.64倍的端到端加速,单块B200 GPU上吞吐量达到约1000 TPS。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈