sparsification

标签

Cards List
#sparsification

SCAPE:利用极端稀疏通信实现准确高效的LLM训练

arXiv cs.LG · 昨天 缓存

SCAPE是一种通信高效的分布式优化器,利用一阶矩统计量实现LLM训练的极端稀疏化,在保持准确性的同时将实际训练时间减少高达43.3%。

0 人收藏 0 人点赞
#sparsification

Llama Surgery: 通过可微分超度量拓扑注入对预训练语言模型进行持续稀疏化

Reddit r/artificial · 2026-05-31

Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中,无需从头重新训练,使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃,实现稳定收敛和连贯输出。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈