dense-to-sparse

#dense-to-sparse

持续LLM升级循环：一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案

arXiv cs.CL ↗ · 2026-06-10 缓存

本文提出了一种用于大语言模型的从稠密到稀疏的持续训练方法，采用预测器门控的按组稀疏性实现4倍FFN稀疏度，并在Qwen2.5-8B上通过长上下文训练进行了验证。

0 人收藏 0 人点赞