标签
Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。
本文介绍了D-PACE,一种用于训练推测解码草稿模型的动态位置感知交叉熵损失,该损失函数自适应地加权位置以提升接受长度和推理速度,在各基准测试中实现一致的加速比,且开销极低。
本文介绍了 PARD-2,这是一种双模态投机解码框架,利用目标对齐的并行草稿模型加速大语言模型(LLM)推理,在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。