activation-sparsity

标签

Cards List
#activation-sparsity

RT-Lynx:以正确方式将GEMM稀疏性应用于扩散模型

Hugging Face Daily Papers · 2026-05-26 缓存

RT-Lynx提出利用激活稀疏性而非权重稀疏性来加速扩散模型,在线性层上实现了高达1.55倍的加速,同时保持生成质量,并被ICML 2026接收。

0 人收藏 0 人点赞
#activation-sparsity

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers · 2026-05-17 缓存

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈