distribution-alignment

#distribution-alignment

Robust Reasoning via Dynamic Token Selection for Distribution-Aligned Self-Distillation

arXiv cs.CL ↗ · 2026-06-02 Cached

Proposes Distribution-Aligned Self-Distillation (DASD), which dynamically filters tokens during self-distillation to preserve beneficial logical corrections while suppressing distributionally misaligned style noise, improving robust reasoning on math, code, and commonsense benchmarks.

0 favorites 0 likes

#distribution-alignment

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Papers with Code Trending ↗ · 2026-05-01 Cached

The paper introduces PRISM, a method that inserts a distribution-alignment stage between supervised fine-tuning and reinforcement learning to mitigate distributional drift in multimodal models. It uses a black-box adversarial game with an MoE discriminator to improve RLVR performance on models like Qwen3-VL.

0 favorites 0 likes

distribution-alignment

Robust Reasoning via Dynamic Token Selection for Distribution-Aligned Self-Distillation

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Submit Feedback