token-superposition

#token-superposition

Nous Research Releases Token Superposition Training to Speed Up LLM Pre-Training by Up to 2.5x Across 270M to 10B Parameter Models

Reddit r/singularity ↗ · 2026-05-16

Nous Research releases Token Superposition Training (TST), a method that speeds up LLM pre-training by up to 2.5x across models from 270M to 10B parameters, reducing wall-clock time without altering architecture or data.

0 favorites 0 likes

#token-superposition

Efficient Pre-Training with Token Superposition

Hugging Face Daily Papers ↗ · 2026-05-07 Cached

Token-Superposition Training (TST) improves LLM pre-training efficiency by combining contiguous tokens into bags during a superposition phase with a multi-hot cross-entropy objective, achieving up to 2.5x reduction in training time without architectural changes.

0 favorites 0 likes

token-superposition

Nous Research Releases Token Superposition Training to Speed Up LLM Pre-Training by Up to 2.5x Across 270M to 10B Parameter Models

Efficient Pre-Training with Token Superposition

Submit Feedback