RT-Lynx:以正确方式将GEMM稀疏性应用于扩散模型

Hugging Face Daily Papers 论文

摘要

RT-Lynx提出利用激活稀疏性而非权重稀疏性来加速扩散模型,在线性层上实现了高达1.55倍的加速,同时保持生成质量,并被ICML 2026接收。

扩散Transformer(DiT)在图像生成中表现出色,但推理成本较高。虽然先前的工作通过量化和蒸馏降低了这一成本,但半结构化稀疏性(可将FLOPs减少近一半)仍未得到充分探索。一个关键原因是现有方法大多聚焦于权重稀疏化,而剪枝50%的权重会移除关键的模型容量并降低生成质量。然而,我们的研究表明,DiT的激活值本质上具有稀疏性,并且对N:M半结构化稀疏化的鲁棒性显著高于权重。基于这一观察,我们倡导从权重稀疏化向激活稀疏化的范式转变。我们提出了RT-Lynx,该方法对激活值应用N:M稀疏化,并引入误差补偿技术以减轻精度损失。我们进一步实现了针对此场景高度优化的CUDA内核,在线性层中平均实现了高达1.55倍的加速。在多种扩散模型上的大量实验表明,我们的方法在保持原始模型生成质量的同时,显著加速了推理过程。
查看原文
查看缓存全文

缓存时间: 2026/05/27 02:47

论文页面 - RT-Lynx:以正确方式将GEMM稀疏性应用于扩散模型

来源:https://huggingface.co/papers/2605.26632
👋 大家好!我们很高兴分享我们的ICML 2026工作RT-Lynx:将GEMM稀疏性放在扩散模型的正确位置

半结构化稀疏性有潜力将GEMM FLOPs减少近一半,但将其应用于扩散模型仍具挑战性:传统的权重稀疏化往往移除关键的生成能力,并导致可见的质量下降。

我们重新审视了这个问题,发现与权重不同,DiT激活值本质上是稀疏的,并且对2:4半结构化稀疏性具有显著更强的鲁棒性。这表明对于加速扩散Transformer而言,激活稀疏性比权重稀疏性更值得作为优化目标。基于这一观察,我们提出了RT-Lynx,将稀疏化目标从权重转向激活值。它结合了在线激活稀疏化、基于范数的补偿以及轻量级LoRA分支来恢复细粒度的视觉细节。为了使其在实际中高效运行,我们进一步设计了优化的CUDA内核,将稀疏化、压缩和稀疏Tensor Core计算融合为统一的推理管线。

在Qwen-Image、FLUX.1-dev和Z-Image上,RT-Lynx在保持生成质量的同时,实现了约1.2倍的端到端加速和最高1.55倍的平均线性层加速。

我们希望这项工作能突出激活稀疏性作为加速现代扩散Transformer的更合适且硬件友好的方向。欢迎反馈!

相似文章

# 支持性令牌揭示:用于快速扩散语言模型解码

arXiv cs.CL

本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。

基于时空并行解码与置信度外推的高效扩散LLMs

arXiv cs.CL

本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。