approximate-sampling

标签

Cards List
#approximate-sampling

通过序列蒙特卡洛加速LLM推理

arXiv cs.CL · 2026-04-20 缓存

本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈