conditional-computation

标签

Cards List
#conditional-computation

持续LLM升级循环:一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案

arXiv cs.CL · 2026-06-10 缓存

本文提出了一种用于大语言模型的从稠密到稀疏的持续训练方法,采用预测器门控的按组稀疏性实现4倍FFN稀疏度,并在Qwen2.5-8B上通过长上下文训练进行了验证。

0 人收藏 0 人点赞
#conditional-computation

通过 L₀ 正则化学习稀疏神经网络

OpenAI Blog · 2017-12-04 缓存

OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈