dense-to-sparse

标签

Cards List
#dense-to-sparse

持续LLM升级循环:一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案

arXiv cs.CL · 2026-06-10 缓存

本文提出了一种用于大语言模型的从稠密到稀疏的持续训练方法,采用预测器门控的按组稀疏性实现4倍FFN稀疏度,并在Qwen2.5-8B上通过长上下文训练进行了验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈