面向在线策略蒸馏的信任区域行为融合

Hugging Face Daily Papers 2026/05/29 00:00 论文

摘要

信任区域行为融合（TRB）通过在线策略蒸馏的预热阶段，在KL信任区域内用教师行为替换学生早期的劣质轨迹，从而在数学推理任务上取得更强结果。

在线策略蒸馏（OPD）通过从学生自身策略采样的前缀上进行训练，同时匹配更强的教师模型。这解决了离线蒸馏中的前缀不匹配问题，但早期学生轨迹可能仍然较差，导致教师监督作用于弱或低质量的前缀。我们提出信任区域行为融合（TRB），这是一种预热方法，它用学生为中心的KL信任区域内最接近教师的行为策略替换早期的轨迹策略，同时保持每个前缀的反向KL OPD损失不变。KL预算会退火至零，使得预热后训练回归到纯学生轨迹。在两个数学推理蒸馏场景中，TRB在比较方法中达到了最强的平均效果。

查看原文

查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - 面向在线策略蒸馏的信任域行为混合

来源：https://huggingface.co/papers/2605.31159

摘要

信任域行为混合通过在预热阶段，将早期质量低下的学生策略回滚替换为KL信任域内与教师相似的行为，从而改进了在线策略蒸馏。

在线策略蒸馏 (https://huggingface.co/papers?q=On-policy%20distillation)（OPD）在匹配更强教师的同时，对学生从其自身策略中采样的前缀进行训练。这解决了离线蒸馏 (https://huggingface.co/papers?q=offline%20distillation) 的前缀不匹配 (https://huggingface.co/papers?q=prefix%20mismatch) 问题，但早期的学生回滚仍然可能质量较低，导致教师监督作用于薄弱或低质量的前缀。我们提出了信任域行为混合 (https://huggingface.co/papers?q=behavior%20Blending)（TRB），这是一种预热方法，在预热阶段将早期回滚策略替换为以学生为中心的KL信任域 (https://huggingface.co/papers?q=KL%20trust%20region) 内最接近教师的行为策略，同时保持每个前缀的反向KL OPD损失不变。KL预算逐渐退火至零，因此训练在预热后回归纯粹的学生回滚。在两个数学推理蒸馏场景中，TRB在比较方法中获得了最强的平均性能。

查看arXiv页面 (https://arxiv.org/abs/2605.31159) 查看PDF (https://arxiv.org/pdf/2605.31159) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31159)

在您的智能体中获取此论文：

hf papers read 2605\.31159

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。

引用此论文的Spaces0

没有Space链接到此论文

请在Space README.md 中引用 arxiv.org/abs/2605.31159 以从该页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从该页面链接。

面向在线策略蒸馏的信任区域行为融合

论文页面 - 面向在线策略蒸馏的信任域行为混合

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

Trust Region On-Policy Distillation

OPRD：在策略表示蒸馏

信任区域Q伴随匹配

信任域逆强化学习：利用局部策略更新进行显式对偶上升

同策略蒸馏（5分钟阅读）

提交意见反馈