标签
本文提出了dMoE,一种用于扩散大语言模型的块级混合专家框架,该框架将词元级专家分布聚合成块级路由,在保持性能的同时减少激活的专家数量和内存使用。
Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。
SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。
Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。
ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。
本文提出了FeF-DLLM,一种通过精确前缀条件分解消除分解错误、并利用推测解码加速推理的离散扩散语言模型,在GSM8K和MATH等基准测试中显著提升了准确率和速度。
Orthrus 是一个双架构框架,结合了自回归大语言模型与扩散模型,通过共享KV缓存和共识机制实现快速并行令牌生成,同时保持精确推理保真度,速度提升最高可达7.8倍。