sparsification

#sparsification

SCAPE: Accurate and Efficient LLM Training with Extreme Sparse Communication

arXiv cs.LG ↗ · 2d ago Cached

SCAPE is a communication-efficient distributed optimizer that leverages first-moment statistics to enable extreme sparsification for LLM training, preserving accuracy while reducing wall-clock time by up to 43.3%.

0 favorites 0 likes

#sparsification

Llama Surgery: Continuous Sparsification of Pre-Trained Language Models via Differentiable Ultrametric Topology Injection

Reddit r/artificial ↗ · 2026-05-31

Llama Surgery injects learned block-sparse attention topologies into pre-trained Llama 3.1 8B without retraining from scratch, using a Dynamic Topology Router with Gumbel-Softmax routing, temperature annealing, and a Straight-Through Estimator to avoid gradient collapse, achieving stable convergence and coherent output.

0 favorites 0 likes

sparsification

SCAPE: Accurate and Efficient LLM Training with Extreme Sparse Communication

Llama Surgery: Continuous Sparsification of Pre-Trained Language Models via Differentiable Ultrametric Topology Injection

Submit Feedback