面向在线策略蒸馏的信任区域行为融合
摘要
信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。
查看缓存全文
缓存时间: 2026/06/01 11:20
论文页面 - 面向在线策略蒸馏的信任域行为混合
来源:https://huggingface.co/papers/2605.31159
摘要
信任域行为混合通过在预热阶段,将早期质量低下的学生策略回滚替换为KL信任域内与教师相似的行为,从而改进了在线策略蒸馏。
在线策略蒸馏 (https://huggingface.co/papers?q=On-policy%20distillation)(OPD)在匹配更强教师的同时,对学生从其自身策略中采样的前缀进行训练。这解决了离线蒸馏 (https://huggingface.co/papers?q=offline%20distillation) 的前缀不匹配 (https://huggingface.co/papers?q=prefix%20mismatch) 问题,但早期的学生回滚仍然可能质量较低,导致教师监督作用于薄弱或低质量的前缀。我们提出了信任域行为混合 (https://huggingface.co/papers?q=behavior%20Blending)(TRB),这是一种预热方法,在预热阶段将早期回滚策略替换为以学生为中心的KL信任域 (https://huggingface.co/papers?q=KL%20trust%20region) 内最接近教师的行为策略,同时保持每个前缀的反向KL OPD损失不变。KL预算逐渐退火至零,因此训练在预热后回归纯粹的学生回滚。在两个数学推理蒸馏场景中,TRB在比较方法中获得了最强的平均性能。
查看arXiv页面 (https://arxiv.org/abs/2605.31159) 查看PDF (https://arxiv.org/pdf/2605.31159) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31159)
在您的智能体中获取此论文:
hf papers read 2605\.31159
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。
引用此论文的Spaces0
没有Space链接到此论文
请在Space README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从该页面链接。
相似文章
Trust Region On-Policy Distillation
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。
信任区域Q伴随匹配
信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。
信任域逆强化学习:利用局部策略更新进行显式对偶上升
本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。