Trust Region On-Policy Distillation
摘要
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。
查看缓存全文
缓存时间: 2026/06/03 03:35
论文页面 - Trust Region On-Policy Distillation
来源:https://huggingface.co/papers/2606.01249
摘要
Trust Region On-Policy Distillation (TrOPD) 通过引入信任区域、异常估计和离线策略引导,改进了大型语言模型蒸馏中的可靠令牌级监督,有效解决了分布不匹配下的不稳定问题。
在线策略蒸馏 (https://huggingface.co/papers?q=On-Policy%20Distillation)(OPD) 是一种用于高效训练后大型语言模型(LLM)的基础技术,在智能体学习、多任务增强和模型压缩等方面有广泛应用。然而,当教师模型与学生模型的分布差异较大时,OPD 训练会变得不稳定,因为教师模型对学生生成令牌的监督可能产生不可靠的策略梯度,甚至导致优化失败。本文通过信用分配策略解决了可靠的在线策略令牌级监督 (https://huggingface.co/papers?q=token-level%20supervision) 问题,并提出了 Trust Region (https://huggingface.co/papers?q=Trust%20Region) On-Policy Distillation (https://huggingface.co/papers?q=On-Policy%20Distillation),简称 TrOPD。该方法具有以下特点:1) 信任区域在线策略学习:TrOPD 仅在教师提供可靠监督的区域进行 OPD,缓解了分布不匹配 (https://huggingface.co/papers?q=distribution%20mismatch) 下逆向 KL 估计器 (https://huggingface.co/papers?q=reverse-KL%20estimator) 的优化困难。2) 异常估计:对于异常区域,我们探索了梯度裁剪 (https://huggingface.co/papers?q=gradient%20clipping)、掩码和前向 KL 估计 (https://huggingface.co/papers?q=forward-KL%20estimator) 等方法,以减少不可靠监督带来的不利影响。3) 离线策略引导 (https://huggingface.co/papers?q=Off-Policy%20Guidance):学生模型从教师前缀继续生成,并使用前向 KL 模仿离线策略引导 (https://huggingface.co/papers?q=off-policy%20guidance),鼓励向可靠区域的在线策略探索。实验表明,在数学推理、代码生成和通用领域基准测试中,TrOPD 始终优于最先进的 OPD 基线方法,包括 OPD、EOPD 和 REOPOLD。
查看 arXiv 页面 (https://arxiv.org/abs/2606.01249)查看 PDF (https://arxiv.org/pdf/2606.01249)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01249)
在智能体中获取此论文:
hf papers read 2606\.01249
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。
引用此论文的数据集 0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。
引用此论文的空间 0
没有空间关联此论文
在空间 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。
包含此论文的收藏 0
没有包含此论文的收藏
将本论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
面向在线策略蒸馏的信任区域行为融合
信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。
学会预见:揭示 On-Policy 蒸馏效率的解锁机制
本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
通过近未来引导弥合在线蒸馏中的推理轨迹
本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。
确定性的幻觉:解耦策略蒸馏中的能力与校准
本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。