Trust Region On-Policy Distillation

Hugging Face Daily Papers 论文

摘要

本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。

在线策略蒸馏(On-Policy Distillation, OPD)是大型语言模型(LLM)高效后训练的基础技术,广泛应用于智能体学习、多任务增强和模型压缩。然而,当教师和学生分布差异较大时,OPD训练变得不稳定,因为教师对学生生成令牌的监督可能产生不可靠的策略梯度,甚至导致优化失败。本文通过信用分配策略解决可靠的在线策略令牌级监督问题,并提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD)。其特点包括:1)信任区域在线策略学习:仅在教师提供可靠监督的区域进行OPD,缓解分布不匹配下K1逆KL估计器的优化困难。2)异常值估计:对于异常区域,我们探索了梯度裁剪、掩码和前向KL估计,以减少不可靠监督的不利影响。3)离策略引导:学生从教师前缀继续生成,并使用前向KL模仿离策略引导,鼓励在线策略探索向可靠区域。实验表明,TrOPD在数学推理、代码生成和通用领域基准测试中始终优于最先进的OPD基线,包括OPD、EOPD和REOPOLD。
查看原文
查看缓存全文

缓存时间: 2026/06/03 03:35

论文页面 - Trust Region On-Policy Distillation

来源:https://huggingface.co/papers/2606.01249

摘要

Trust Region On-Policy Distillation (TrOPD) 通过引入信任区域、异常估计和离线策略引导,改进了大型语言模型蒸馏中的可靠令牌级监督,有效解决了分布不匹配下的不稳定问题。

在线策略蒸馏 (https://huggingface.co/papers?q=On-Policy%20Distillation)(OPD) 是一种用于高效训练后大型语言模型(LLM)的基础技术,在智能体学习、多任务增强和模型压缩等方面有广泛应用。然而,当教师模型与学生模型的分布差异较大时,OPD 训练会变得不稳定,因为教师模型对学生生成令牌的监督可能产生不可靠的策略梯度,甚至导致优化失败。本文通过信用分配策略解决了可靠的在线策略令牌级监督 (https://huggingface.co/papers?q=token-level%20supervision) 问题,并提出了 Trust Region (https://huggingface.co/papers?q=Trust%20Region) On-Policy Distillation (https://huggingface.co/papers?q=On-Policy%20Distillation),简称 TrOPD。该方法具有以下特点:1) 信任区域在线策略学习:TrOPD 仅在教师提供可靠监督的区域进行 OPD,缓解了分布不匹配 (https://huggingface.co/papers?q=distribution%20mismatch) 下逆向 KL 估计器 (https://huggingface.co/papers?q=reverse-KL%20estimator) 的优化困难。2) 异常估计:对于异常区域,我们探索了梯度裁剪 (https://huggingface.co/papers?q=gradient%20clipping)、掩码和前向 KL 估计 (https://huggingface.co/papers?q=forward-KL%20estimator) 等方法,以减少不可靠监督带来的不利影响。3) 离线策略引导 (https://huggingface.co/papers?q=Off-Policy%20Guidance):学生模型从教师前缀继续生成,并使用前向 KL 模仿离线策略引导 (https://huggingface.co/papers?q=off-policy%20guidance),鼓励向可靠区域的在线策略探索。实验表明,在数学推理、代码生成和通用领域基准测试中,TrOPD 始终优于最先进的 OPD 基线方法,包括 OPD、EOPD 和 REOPOLD。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01249)查看 PDF (https://arxiv.org/pdf/2606.01249)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01249)

在智能体中获取此论文:

hf papers read 2606\.01249

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。

引用此论文的空间 0

没有空间关联此论文

在空间 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。

包含此论文的收藏 0

没有包含此论文的收藏

将本论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

面向在线策略蒸馏的信任区域行为融合

Hugging Face Daily Papers

信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

通过近未来引导弥合在线蒸馏中的推理轨迹

arXiv cs.CL

本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。