Trust Region On-Policy Distillation

Hugging Face Daily Papers 2026/05/31 00:00 论文

distillation large-language-models on-policy trust-region off-policy token-level-supervision

摘要

本文提出了信任区域在线策略蒸馏（Trust Region On-Policy Distillation, TrOPD），通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏，在推理和代码生成基准测试中优于现有方法。

在线策略蒸馏（On-Policy Distillation, OPD）是大型语言模型（LLM）高效后训练的基础技术，广泛应用于智能体学习、多任务增强和模型压缩。然而，当教师和学生分布差异较大时，OPD训练变得不稳定，因为教师对学生生成令牌的监督可能产生不可靠的策略梯度，甚至导致优化失败。本文通过信用分配策略解决可靠的在线策略令牌级监督问题，并提出了信任区域在线策略蒸馏（Trust Region On-Policy Distillation, TrOPD）。其特点包括：1）信任区域在线策略学习：仅在教师提供可靠监督的区域进行OPD，缓解分布不匹配下K1逆KL估计器的优化困难。2）异常值估计：对于异常区域，我们探索了梯度裁剪、掩码和前向KL估计，以减少不可靠监督的不利影响。3）离策略引导：学生从教师前缀继续生成，并使用前向KL模仿离策略引导，鼓励在线策略探索向可靠区域。实验表明，TrOPD在数学推理、代码生成和通用领域基准测试中始终优于最先进的OPD基线，包括OPD、EOPD和REOPOLD。

查看原文

查看缓存全文

缓存时间: 2026/06/03 03:35

论文页面 - Trust Region On-Policy Distillation

来源：https://huggingface.co/papers/2606.01249

摘要

Trust Region On-Policy Distillation (TrOPD) 通过引入信任区域、异常估计和离线策略引导，改进了大型语言模型蒸馏中的可靠令牌级监督，有效解决了分布不匹配下的不稳定问题。

在线策略蒸馏 (https://huggingface.co/papers?q=On-Policy%20Distillation)(OPD) 是一种用于高效训练后大型语言模型(LLM)的基础技术，在智能体学习、多任务增强和模型压缩等方面有广泛应用。然而，当教师模型与学生模型的分布差异较大时，OPD 训练会变得不稳定，因为教师模型对学生生成令牌的监督可能产生不可靠的策略梯度，甚至导致优化失败。本文通过信用分配策略解决了可靠的在线策略令牌级监督 (https://huggingface.co/papers?q=token-level%20supervision) 问题，并提出了 Trust Region (https://huggingface.co/papers?q=Trust%20Region) On-Policy Distillation (https://huggingface.co/papers?q=On-Policy%20Distillation)，简称 TrOPD。该方法具有以下特点：1) 信任区域在线策略学习：TrOPD 仅在教师提供可靠监督的区域进行 OPD，缓解了分布不匹配 (https://huggingface.co/papers?q=distribution%20mismatch) 下逆向 KL 估计器 (https://huggingface.co/papers?q=reverse-KL%20estimator) 的优化困难。2) 异常估计：对于异常区域，我们探索了梯度裁剪 (https://huggingface.co/papers?q=gradient%20clipping)、掩码和前向 KL 估计 (https://huggingface.co/papers?q=forward-KL%20estimator) 等方法，以减少不可靠监督带来的不利影响。3) 离线策略引导 (https://huggingface.co/papers?q=Off-Policy%20Guidance)：学生模型从教师前缀继续生成，并使用前向 KL 模仿离线策略引导 (https://huggingface.co/papers?q=off-policy%20guidance)，鼓励向可靠区域的在线策略探索。实验表明，在数学推理、代码生成和通用领域基准测试中，TrOPD 始终优于最先进的 OPD 基线方法，包括 OPD、EOPD 和 REOPOLD。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01249)查看 PDF (https://arxiv.org/pdf/2606.01249)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01249)

在智能体中获取此论文：

hf papers read 2606\.01249

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。

引用此论文的空间 0

没有空间关联此论文

在空间 README.md 中引用 arxiv.org/abs/2606.01249 以从此页面链接。

包含此论文的收藏 0

没有包含此论文的收藏

将本论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

Trust Region On-Policy Distillation

论文页面 - Trust Region On-Policy Distillation

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的收藏 0

相似文章

信任区域策略蒸馏

面向在线策略蒸馏的信任区域行为融合

PowerOPD: 使用有界幂变换稳定在线策略蒸馏

EasyOPD: 一种易用的面向大语言模型在策略蒸馏框架

OPRD：在策略表示蒸馏

提交意见反馈