inference-speedup

标签

Cards List
#inference-speedup

dMoE: 具有可学习块级专家的dLLMs

Hugging Face Daily Papers · 2026-05-29 缓存

本文提出了dMoE,一种用于扩散大语言模型的块级混合专家框架,该框架将词元级专家分布聚合成块级路由,在保持性能的同时减少激活的专家数量和内存使用。

0 人收藏 0 人点赞
#inference-speedup

Domino:在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers · 2026-05-28 缓存

Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。

0 人收藏 0 人点赞
#inference-speedup

面向高效全模态LLM的阶段自适应Token选择方法

Hugging Face Daily Papers · 2026-05-19 缓存

SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。

0 人收藏 0 人点赞
#inference-speedup

减少草稿,增加检索:用于推测解码的混合树构建

Hugging Face Daily Papers · 2026-05-19 缓存

Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。

0 人收藏 0 人点赞
#inference-speedup

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers · 2026-05-18 缓存

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

0 人收藏 0 人点赞
#inference-speedup

基于推测解码的无分解错误离散扩散语言模型

arXiv cs.CL · 2026-05-15 缓存

本文提出了FeF-DLLM,一种通过精确前缀条件分解消除分解错误、并利用推测解码加速推理的离散扩散语言模型,在GSM8K和MATH等基准测试中显著提升了准确率和速度。

0 人收藏 0 人点赞
#inference-speedup

Orthrus:通过双视图扩散实现内存高效的并行令牌生成

Hugging Face Daily Papers · 2026-05-12 缓存

Orthrus 是一个双架构框架,结合了自回归大语言模型与扩散模型,通过共享KV缓存和共识机制实现快速并行令牌生成,同时保持精确推理保真度,速度提升最高可达7.8倍。

0 人收藏 0 人点赞
#inference-speedup

z-lab/dflash

GitHub Trending (daily) · 2026-05-08

DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈