noise-aware

#noise-aware

GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training

arXiv cs.LG ↗ · 2026-05-27 Cached

The paper proposes GAC, a noise-aware adaptive mixing controller for hybrid SFT-RL post-training of LLMs. It derives a closed-form mixing weight that balances gradient noise and SFT-RL disagreement, achieving consistent improvements across multiple benchmarks with minimal overhead.

0 favorites 0 likes

#noise-aware

Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs

Hugging Face Daily Papers ↗ · 2026-05-10 Cached

This paper introduces PNAPO, an offline preference optimization framework for rectified flow models that augments preference data with noise samples and uses dynamic regularization to improve training efficiency and sample efficiency.

0 favorites 0 likes

noise-aware

GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training

Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs

Submit Feedback