标签
本文提出Rubric-Conditioned Self-Distillation (RCSD)框架,该框架利用细粒度评分标准在自蒸馏过程中提供token级别的指导,相比GRPO和OPSD等标量奖励方法提升了推理性能。
介绍了 d-OPSD,这是首个面向扩散大语言模型的自策略知识蒸馏框架,采用后缀条件和步骤级别监督,在推理基准上优于 RLVR 和 SFT 基线。
本文提出了轨迹增强策略优化(TAPO),该方法利用模型自身正确和错误的展开构建微反思修正轨迹,以提高大型语言模型的推理能力,在数学基准测试上优于标准自蒸馏方法。
本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。
提出面向GUI定位的质量感知自蒸馏方法,通过正确性感知门控和概率缩放改进坐标-标记教师信号,以提升视觉语言模型性能。
本文研究了为何自蒸馏会降低大语言模型的推理能力,发现它会抑制认知性言语化(不确定性表达),导致数学推理任务中的性能下降高达40%。
DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化,保持紧凑的ELBO,防止双重漂移现象,在语言和连续控制任务中均能获得更高奖励。
Qwen Tongyi Lab提出RLCSD以解决同策略自蒸馏中的风格漂移问题,该问题中学习信号集中在风格标记上,而非任务关键推理标记。他们的方法使用对比监督来聚焦于任务相关标记,在推理基准测试中取得了相较先前方法一致的改进。
HERO 提出了一种事后增强的自蒸馏框架,利用环境观察作为局部对齐的反馈,以提升多轮智能体的能力,在 TauBench 和 WebShop 上优于现有方法,尤其在有限的轮次预算下表现突出。
本文介绍了Visual-SDPO,一种自我蒸馏策略优化框架,该框架利用渲染后的视觉反馈作为特权上下文来训练代码生成型大语言模型,在图表、用户界面和幻灯片生成基准测试中提升了视觉制品的质量。
ParaBridge是一种基于策略的自蒸馏方法,旨在弥合语音语言模型中副语言感知与对话行为之间的差距,在不依赖外部奖励的情况下显著提升安全性和共情能力。
一个可扩展的框架结合了自蒸馏和强化学习,将任务解决能力从视觉语言模型迁移到视频扩散模型,无需标注的任务-视频数据。
本文研究了语言模型中自蒸馏的上下文设计,发现逐步对齐的批评反馈显著优于二元奖励或参考解条件,因为它只针对错误词元,同时保留正确行为。
PBSD提出了一种贝叶斯自蒸馏方法,将稀疏的最终奖励转化为经过校准的回合级信用信号,用于长时域智能体任务,从而改进策略学习与泛化能力。
SDPG(自蒸馏策略梯度)是一种面向大语言模型的全新强化学习训练框架,结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化,旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文,使同一模型同时充当学生和教师,在稳定性和性能上均优于RLVR及自蒸馏基线方法。
Dwarkesh Patel 分享了 Sasha Rush 对定向在线自蒸馏的解释,其中提示标记被插入到轨迹中,以降低特定模型错误的权重,而无需新的 rollout。
介绍DistIL,一种从丰富反馈中进行强化学习的方法,保证策略单调改进,在科学推理、编程和数学推理上优于现有方法。
本文提出特权未来在策略自蒸馏(PF-OPSD)方法,用于受控具体推理,结合世界模型的视觉模拟与语言模型的抽象推理,在两个新基准上提升预测准确性和鲁棒性。
本文提出CAST,一种非特权裁剪非对称自教学方法,通过提供密集的令牌级引导并解决零方差组问题,增强了基于GRPO的可验证奖励强化学习,在数学推理上展现了改进。
提出了分布对齐自蒸馏(DASD),该方法在自蒸馏过程中动态过滤Token,以保留有益的逻辑修正,同时抑制分布不对齐的风格噪声,从而在数学、代码和常识推理基准上提升鲁棒推理能力。