面向在线策略蒸馏的信任区域行为融合

Hugging Face Daily Papers 论文

摘要

信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。

在线策略蒸馏(OPD)通过从学生自身策略采样的前缀上进行训练,同时匹配更强的教师模型。这解决了离线蒸馏中的前缀不匹配问题,但早期学生轨迹可能仍然较差,导致教师监督作用于弱或低质量的前缀。我们提出信任区域行为融合(TRB),这是一种预热方法,它用学生为中心的KL信任区域内最接近教师的行为策略替换早期的轨迹策略,同时保持每个前缀的反向KL OPD损失不变。KL预算会退火至零,使得预热后训练回归到纯学生轨迹。在两个数学推理蒸馏场景中,TRB在比较方法中达到了最强的平均效果。
查看原文
查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - 面向在线策略蒸馏的信任域行为混合

来源:https://huggingface.co/papers/2605.31159

摘要

信任域行为混合通过在预热阶段,将早期质量低下的学生策略回滚替换为KL信任域内与教师相似的行为,从而改进了在线策略蒸馏。

在线策略蒸馏 (https://huggingface.co/papers?q=On-policy%20distillation)(OPD)在匹配更强教师的同时,对学生从其自身策略中采样的前缀进行训练。这解决了离线蒸馏 (https://huggingface.co/papers?q=offline%20distillation) 的前缀不匹配 (https://huggingface.co/papers?q=prefix%20mismatch) 问题,但早期的学生回滚仍然可能质量较低,导致教师监督作用于薄弱或低质量的前缀。我们提出了信任域行为混合 (https://huggingface.co/papers?q=behavior%20Blending)(TRB),这是一种预热方法,在预热阶段将早期回滚策略替换为以学生为中心的KL信任域 (https://huggingface.co/papers?q=KL%20trust%20region) 内最接近教师的行为策略,同时保持每个前缀的反向KL OPD损失不变。KL预算逐渐退火至零,因此训练在预热后回归纯粹的学生回滚。在两个数学推理蒸馏场景中,TRB在比较方法中获得了最强的平均性能。

查看arXiv页面 (https://arxiv.org/abs/2605.31159) 查看PDF (https://arxiv.org/pdf/2605.31159) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31159)

在您的智能体中获取此论文:

hf papers read 2605\.31159

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。

引用此论文的Spaces0

没有Space链接到此论文

请在Space README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

Trust Region On-Policy Distillation

Hugging Face Daily Papers

本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

信任区域Q伴随匹配

Hugging Face Daily Papers

信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。

信任域逆强化学习:利用局部策略更新进行显式对偶上升

arXiv cs.LG

本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。