parallel-drafting

#parallel-drafting

Domino：在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

Domino是一个推测解码框架，它将因果依赖建模与自回归草稿生成解耦，采用并行主干和轻量级因果精炼头，在Qwen3模型上实现了高达5.49倍的端到端加速。

0 人收藏 0 人点赞

#parallel-drafting

arXiv cs.LG ↗ · 2026-05-20 缓存

本文介绍了D-PACE，一种用于训练推测解码草稿模型的动态位置感知交叉熵损失，该损失函数自适应地加权位置以提升接受长度和推理速度，在各基准测试中实现一致的加速比，且开销极低。

0 人收藏 0 人点赞

#parallel-drafting

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了 PARD-2，这是一种双模态投机解码框架，利用目标对齐的并行草稿模型加速大语言模型（LLM）推理，在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。

0 人收藏 0 人点赞