data-curation

#data-curation

Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods

arXiv cs.LG ↗ · 2d ago Cached

This paper introduces ADAPT, an online reweighting framework for LLM data curation that dynamically adjusts sample importance during training via loss weighting, outperforming offline selection and mixing methods in cross-benchmark generalization.

0 favorites 0 likes

#data-curation

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

arXiv cs.CL ↗ · 2026-04-20 Cached

This paper introduces Neuron-Activated Graph (NAG) Ranking, a training-free framework for selecting pretraining data aligned with target tasks by identifying and ranking candidate data based on similarity in neuron activation patterns. The approach achieves 4.9% average improvement over random sampling and demonstrates that sparse neuron patterns capture functional capabilities for target learning.

0 favorites 0 likes

data-curation

Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Submit Feedback