叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索

Hugging Face Daily Papers 论文

摘要

本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。

自蒸馏已成为大语言模型后训练的有力框架,其中拥有额外信息的教师模型指导同一模型但未获得该信息的学生模型。虽然在学生模型失败时这种指导非常有用,但在成功的采样轨迹中,同一机制反而会覆盖学生模型的选择,并抑制其自身的推理过程。因此,我们提出反向解读原始的自蒸馏信号:当学生模型沿着教师模型未曾预测的路径取得成功时,这些 token 反映了其自主驱动的推理。基于此,我们提出了 RLRT(带反转教师的 RLVR),它通过强化正确轨迹中的这些 token 来增强 GRPO。我们将此解释为 RLVR 中一种新型探索:不是均匀多样性,而是基于学生自身成功的有价值探索。在基础版、指令微调版和思维微调版的 Qwen3 检查点中,RLRT 均大幅优于自蒸馏和基于探索的基线方法,确立了信息不对称作为 RLVR 中一个新的原则性设计维度。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:31

论文页面 - 叛逆学生:通过反转教师信号进行推理探索的自蒸馏RLVR

来源: https://huggingface.co/papers/2605.10781

摘要

RLRT 通过强化那些偏离教师预测但成功的学生决策,增强了自蒸馏的效果,从而在通过自奖励进行的强化学习中实现更有效的探索。

自蒸馏 (https://huggingface.co/papers?q=Self-distillation) 已成为大语言模型(LLM)后训练的强大框架,其中,一个有条件获取额外信息的教师模型引导一个没有该信息的同型号学生模型。虽然这种指导在学生失败时很有用,但在成功的推理过程中,相同的机制反而会覆盖学生的选择,并抑制其自身的推理能力。因此,我们提出反转原始自蒸馏 (https://huggingface.co/papers?q=self-distillation) 的信号:当学生在教师未预测的路径上取得成功时,这些标记反映了其自主驱动的推理。在此基础上,我们提出了 RLRT(带有反转教师的 RLVR (https://huggingface.co/papers?q=RLVR)),通过在正确的推理路径上强化这些标记来增强 GRPO (https://huggingface.co/papers?q=GRPO)。我们将此解释为 RLVR (https://huggingface.co/papers?q=RLVR) 中探索 (https://huggingface.co/papers?q=exploration) 的一种新形式:不是均匀多样性,而是基于学生自身成功的有价值探索 (https://huggingface.co/papers?q=exploration)。在基础、指令微调及思维微调的 Qwen3 (https://huggingface.co/papers?q=Qwen3) 检查点上,RLRT 均大幅优于自蒸馏 (https://huggingface.co/papers?q=self-distillation) 和基于探索 (https://huggingface.co/papers?q=exploration) 的基线方法,确立了信息不对称 (https://huggingface.co/papers?q=information%20asymmetry) 作为 RLVR (https://huggingface.co/papers?q=RLVR) 设计中的一个全新、合理的设计维度。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10781)查看 PDF (https://arxiv.org/pdf/2605.10781)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10781)

在您的 agent 中获取这篇论文:

hf papers read 2605\.10781

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.10781 以从本页链接它。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.10781 以从本页链接它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.10781 以从本页链接它。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接它。

相似文章

用于LLM推理的自适应教师暴露自蒸馏方法

Hugging Face Daily Papers

自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。

ExpRL:面向LLM中期训练的探索式强化学习

Hugging Face Daily Papers

ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。