RT-Lynx:以正确方式将GEMM稀疏性应用于扩散模型
摘要
RT-Lynx提出利用激活稀疏性而非权重稀疏性来加速扩散模型,在线性层上实现了高达1.55倍的加速,同时保持生成质量,并被ICML 2026接收。
查看缓存全文
缓存时间: 2026/05/27 02:47
论文页面 - RT-Lynx:以正确方式将GEMM稀疏性应用于扩散模型
来源:https://huggingface.co/papers/2605.26632
👋 大家好!我们很高兴分享我们的ICML 2026工作RT-Lynx:将GEMM稀疏性放在扩散模型的正确位置。
半结构化稀疏性有潜力将GEMM FLOPs减少近一半,但将其应用于扩散模型仍具挑战性:传统的权重稀疏化往往移除关键的生成能力,并导致可见的质量下降。
我们重新审视了这个问题,发现与权重不同,DiT激活值本质上是稀疏的,并且对2:4半结构化稀疏性具有显著更强的鲁棒性。这表明对于加速扩散Transformer而言,激活稀疏性比权重稀疏性更值得作为优化目标。基于这一观察,我们提出了RT-Lynx,将稀疏化目标从权重转向激活值。它结合了在线激活稀疏化、基于范数的补偿以及轻量级LoRA分支来恢复细粒度的视觉细节。为了使其在实际中高效运行,我们进一步设计了优化的CUDA内核,将稀疏化、压缩和稀疏Tensor Core计算融合为统一的推理管线。
在Qwen-Image、FLUX.1-dev和Z-Image上,RT-Lynx在保持生成质量的同时,实现了约1.2倍的端到端加速和最高1.55倍的平均线性层加速。
我们希望这项工作能突出激活稀疏性作为加速现代扩散Transformer的更合适且硬件友好的方向。欢迎反馈!
相似文章
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
# 支持性令牌揭示:用于快速扩散语言模型解码
本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。
@_akhaliq: SpenseGPT 实用的一次性剪枝方法,支持大语言模型推理中的稀疏和密集 GEMM
SpenseGPT 提出了一种实用的一次性剪枝方法,用于大语言模型,可在推理过程中同时支持稀疏和密集的 GEMM,提升效率。
基于时空并行解码与置信度外推的高效扩散LLMs
本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。
Bug or Feature^2:权重漂移、激活稀疏性与尖峰
本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。