叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索
摘要
本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。
查看缓存全文
缓存时间: 2026/05/12 07:31
论文页面 - 叛逆学生:通过反转教师信号进行推理探索的自蒸馏RLVR
来源: https://huggingface.co/papers/2605.10781
摘要
RLRT 通过强化那些偏离教师预测但成功的学生决策,增强了自蒸馏的效果,从而在通过自奖励进行的强化学习中实现更有效的探索。
自蒸馏 (https://huggingface.co/papers?q=Self-distillation) 已成为大语言模型(LLM)后训练的强大框架,其中,一个有条件获取额外信息的教师模型引导一个没有该信息的同型号学生模型。虽然这种指导在学生失败时很有用,但在成功的推理过程中,相同的机制反而会覆盖学生的选择,并抑制其自身的推理能力。因此,我们提出反转原始自蒸馏 (https://huggingface.co/papers?q=self-distillation) 的信号:当学生在教师未预测的路径上取得成功时,这些标记反映了其自主驱动的推理。在此基础上,我们提出了 RLRT(带有反转教师的 RLVR (https://huggingface.co/papers?q=RLVR)),通过在正确的推理路径上强化这些标记来增强 GRPO (https://huggingface.co/papers?q=GRPO)。我们将此解释为 RLVR (https://huggingface.co/papers?q=RLVR) 中探索 (https://huggingface.co/papers?q=exploration) 的一种新形式:不是均匀多样性,而是基于学生自身成功的有价值探索 (https://huggingface.co/papers?q=exploration)。在基础、指令微调及思维微调的 Qwen3 (https://huggingface.co/papers?q=Qwen3) 检查点上,RLRT 均大幅优于自蒸馏 (https://huggingface.co/papers?q=self-distillation) 和基于探索 (https://huggingface.co/papers?q=exploration) 的基线方法,确立了信息不对称 (https://huggingface.co/papers?q=information%20asymmetry) 作为 RLVR (https://huggingface.co/papers?q=RLVR) 设计中的一个全新、合理的设计维度。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10781)查看 PDF (https://arxiv.org/pdf/2605.10781)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10781)
在您的 agent 中获取这篇论文:
hf papers read 2605\.10781
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.10781 以从本页链接它。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.10781 以从本页链接它。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.10781 以从本页链接它。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接它。
相似文章
@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。
@lateinteraction: 你可能错过了:阅读关于Pedagogical RL的博客,与其盲目地从你的LLM中采样,不如利用用于RLVR的标签!学习…
介绍了Pedagogical RL,一种利用特权信息指导成功轨迹采样以增强LLM推理的方法,相比GRPO和在线策略蒸馏,实现了高达40%的相对增益。
用于LLM推理的自适应教师暴露自蒸馏方法
自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。
ExpRL:面向LLM中期训练的探索式强化学习
ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。
@SOURADIPCHAKR18:我们描述了关于*教学RL*的早期实验:一种苦教训式的*训练*特权自我教师…
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。