conditional-computation

#conditional-computation

持续LLM升级循环：一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案

arXiv cs.CL ↗ · 2026-06-10 缓存

本文提出了一种用于大语言模型的从稠密到稀疏的持续训练方法，采用预测器门控的按组稀疏性实现4倍FFN稀疏度，并在Qwen2.5-8B上通过长上下文训练进行了验证。

0 人收藏 0 人点赞

#conditional-computation

OpenAI Blog ↗ · 2017-12-04 缓存

OpenAI 提出了一种实用的神经网络 L₀ 正则化方法，在训练过程中促使权重精确变为零，实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制，引入硬具体分布（hard concrete distribution）使得不可微的 L₀ 范数优化能够通过梯度下降法求解。

0 人收藏 0 人点赞