标签
JetSpec是一个推测解码框架,结合高效的前向草稿与因果条件化,提升LLM推理速度与接受率,在MATH-500上实现最高9.64倍加速,在对话工作负载上实现4.58倍加速。
本文介绍了 SpecBlock,这是一种块迭代式投机解码方法,通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比,它在保持更低草拟成本的同时展示了更高的加速比。