distribution-alignment

#distribution-alignment

通过动态Token选择实现分布对齐自蒸馏的鲁棒推理

arXiv cs.CL ↗ · 2026-06-02 缓存

提出了分布对齐自蒸馏（DASD），该方法在自蒸馏过程中动态过滤Token，以保留有益的逻辑修正，同时抑制分布不对齐的风格噪声，从而在数学、代码和常识推理基准上提升鲁棒推理能力。

0 人收藏 0 人点赞

#distribution-alignment

Papers with Code Trending ↗ · 2026-05-01 缓存

本文介绍了 PRISM，一种在监督微调（SFT）和强化学习（RL）之间插入分布对齐阶段的方法，旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家（MoE）判别器的黑盒对抗博弈，提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞