data-mixture

#data-mixture

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

arXiv cs.CL ↗ · 2d ago Cached

RegMix-D extends RegMix to dynamic data mixing by using loss trajectories from proxy runs to predict optimal mixtures at multiple training stages, achieving improvements over static methods.

0 favorites 0 likes

#data-mixture

FastMix: Fast Data Mixture Optimization via Gradient Descent

arXiv cs.LG ↗ · 4d ago Cached

FastMix is a novel framework that automates data mixture discovery for training large models using a single proxy model and bilevel optimization, achieving state-of-the-art performance with significant efficiency gains.

0 favorites 0 likes

#data-mixture

Repetition Mismatch: Why Data Mixture Experiments Don't Scale and How to Fix Them

arXiv cs.LG ↗ · 2026-06-09 Cached

The paper identifies repetition mismatch as a primary cause for data mixture experiments failing to scale, and proposes a repetition-controlled subsampling procedure that allows small-scale experiments to recover near-optimal mixtures using far fewer tokens.

0 favorites 0 likes

#data-mixture

@NielsRogge: What is mid-training? The stage between pre-training and post-training A base model is continued on a smaller, curated …

X AI KOLs Timeline ↗ · 2026-06-02 Cached

Explains mid-training as a stage between pre-training and post-training, where a base model is continued on curated data to strengthen specific capabilities before instruction tuning.

0 favorites 0 likes

data-mixture

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

FastMix: Fast Data Mixture Optimization via Gradient Descent

Repetition Mismatch: Why Data Mixture Experiments Don't Scale and How to Fix Them

@NielsRogge: What is mid-training? The stage between pre-training and post-training A base model is continued on a smaller, curated …

Submit Feedback