inference-speedup

#inference-speedup

dMoE: 具有可学习块级专家的dLLMs

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文提出了dMoE，一种用于扩散大语言模型的块级混合专家框架，该框架将词元级专家分布聚合成块级路由，在保持性能的同时减少激活的专家数量和内存使用。

0 人收藏 0 人点赞

#inference-speedup

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

Domino是一个推测解码框架，它将因果依赖建模与自回归草稿生成解耦，采用并行主干和轻量级因果精炼头，在Qwen3模型上实现了高达5.49倍的端到端加速。

0 人收藏 0 人点赞

#inference-speedup

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

SEATS是一种无需训练的阶段自适应Token选择方法，通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销，实现了9.3倍FLOPs减少和4.8倍预填充加速，同时保持96.3%的性能。

0 人收藏 0 人点赞

#inference-speedup

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

Graft 是一个无需训练的框架，通过结合剪枝与检索来增强推测解码，从而提高接受率和推理速度。在短上下文基准测试中，其加速比最高可达5.41倍，在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。

0 人收藏 0 人点赞

#inference-speedup

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

ZEDA是一种低成本框架，通过注入零输出专家并使用自蒸馏，将后训练的静态MoE模型转换为动态模型，在基准测试中实现了超过50%的专家FLOP减少，且精度损失极小。

0 人收藏 0 人点赞

#inference-speedup

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出了FeF-DLLM，一种通过精确前缀条件分解消除分解错误、并利用推测解码加速推理的离散扩散语言模型，在GSM8K和MATH等基准测试中显著提升了准确率和速度。

0 人收藏 0 人点赞

#inference-speedup

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

Orthrus 是一个双架构框架，结合了自回归大语言模型与扩散模型，通过共享KV缓存和共识机制实现快速并行令牌生成，同时保持精确推理保真度，速度提升最高可达7.8倍。

0 人收藏 0 人点赞

#inference-speedup

GitHub Trending (daily) ↗ · 2026-05-08

DFlash 引入了一种用于 Flash 投机解码的块扩散方法，以提高大语言模型的推理速度。

0 人收藏 0 人点赞