parallel-drafting

标签

Cards List
#parallel-drafting

Domino:在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers · 2026-05-28 缓存

Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。

0 人收藏 0 人点赞
#parallel-drafting

D-PACE: 面向并行推测草稿的动态位置感知交叉熵

arXiv cs.LG · 2026-05-20 缓存

本文介绍了D-PACE,一种用于训练推测解码草稿模型的动态位置感知交叉熵损失,该损失函数自适应地加权位置以提升接受长度和推理速度,在各基准测试中实现一致的加速比,且开销极低。

0 人收藏 0 人点赞
#parallel-drafting

PARD-2:面向双模态投机解码的目标对齐并行草稿模型

arXiv cs.CL · 2026-05-12 缓存

本文介绍了 PARD-2,这是一种双模态投机解码框架,利用目标对齐的并行草稿模型加速大语言模型(LLM)推理,在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈