基于跨模型熵的无标签强化学习
摘要
提出跨模型熵(CME)作为一种无标签奖励信号,用于大型语言模型的强化学习后训练,无需真实验证器或人类偏好标签即可实现开放式指令遵循。
arXiv:2605.29009v1 公告类型:新
摘要:使用强化学习对大型语言模型进行后训练的瓶颈在于奖励信号。现有方法要么需要可验证的真实奖励,将训练限制在具有自动正确性检查的领域(例如数学、代码执行),要么需要人类偏好标签,这些标签收集成本高昂且容易受到奖励破解的影响。最近的无标签方法用自我引用信号(如多数投票或模型自身输出的令牌熵)替代真实验证器,但有可能强化模型自身的错误。在这项工作中,我们提出跨模型熵(CME),即生成器响应在独立验证器模型下的平均对数似然,作为 RL 后训练的无标签奖励信号。CME 是连续的、无需训练的,并且基于这样一个原则:验证器认为不意外的响应很可能是正确或高质量的。由于验证器独立于生成器,该信号无法通过自洽性进行博弈。我们将 CME 集成到 GRPO 中,无需对训练循环进行其他更改,从而将无标签 RL 扩展到开放式指令遵循——这是一个自我引用信号不适用或不适合的领域。在开放式指令遵循(UltraFeedback 提示,在 AlpacaEval 2.0 上评估)中,CME 奖励在四种模型系列(Qwen、Llama、Gemma、OLMo)和三种训练方案(预训练、SFT 和指令微调)的头对头 LLM-as-Judge 比较中击败了未训练的基础模型,平局调整后的胜率范围从 52.5% 到 71.4%。代码将在发表后发布。
查看缓存全文
缓存时间: 2026/05/29 09:15
# 基于跨模型熵的无标签强化学习 来源:https://arxiv.org/html/2605.29009 Matt Gorbett 独立研究者 [email protected] Hossein Shirazi 圣地亚哥州立大学 [email protected] ###### 摘要 使用强化学习对大语言模型进行后训练,其瓶颈在于奖励信号。现有方法要么需要基于真实性的可验证奖励(从而将训练局限于可自动进行正确性检查的领域,例如数学、代码执行),要么需要人工偏好标签(收集成本高且易引发奖励破解问题)。最近的无标签方法用自引用信号(例如对模型自身输出进行多数投票或计算token熵)取代了真实性验证器,但存在强化模型自身错误的风险。本文提出**跨模型熵(CME)**,即生成器响应在**独立验证器模型**下的平均对数似然,作为一种适用于RL后训练的无标签奖励信号。CME是连续的、无需训练的信号,其原理基于:验证器认为不意外的响应很可能是正确或高质量的。由于验证器独立于生成器,该信号无法通过自一致性来操纵。我们将CME集成到GRPO中,无需对训练循环做其他更改,从而将无标签RL扩展到开放式指令遵循领域——这是自引用信号不适用或效果欠佳的场景。在开放式指令遵循任务(UltraFeedback prompts,在AlpacaEval 2.0上评估)中,CME奖励在四个模型家族(Qwen、Llama、Gemma、OLMo)和三种训练范式(预训练、SFT、指令微调)的head-to-head LLM-as-Judge对比中均优于未训练的基础模型,经平局调整的胜率范围从52.5%到71.4%。代码将于论文发表后公开。 # 基于跨模型熵的无标签强化学习 Matt Gorbett 独立研究者 [email protected] Hossein Shirazi 圣地亚哥州立大学 [email protected] 参见图注 图1:Token级别的CME可定位响应内的质量差异。一个深思熟虑的答案获得均匀的低验证器惊讶度(平均CE=0.6);一个空洞的答案在循环开始时出现峰值(平均CE=3.4)。Token级别的惊讶度将梯度信号集中在响应质量存在差异的位置,无需真实标签。 ## 1 引言 强化学习已成为提升大语言模型推理能力和对齐效果的核心技术。PPO(Schulman等,2017)和GRPO(Shao等,2024)等方法在数学推理、代码生成和指令遵循(Guo等,2025)方面取得了显著进步。这些方法依赖于真实性验证器,从而将训练限制在可自动检查正确性的领域。另一种方案是基于人类偏好数据训练的奖励模型(Ouyang等,2022),DPO(Rafailov等,2023)等变体去除了奖励模型,RLAIF(Bai等,2022;Lee等,2023)则用LLM评判替换人类标注员。然而,这些方法都需要偏好数据,收集成本高且易引发奖励破解(Skalse等,2022)。 最近的研究探索了无标签替代方案。TTRL(Zuo等,2025)和Evol-RL(Zhou等,2025)使用对采样响应的多数投票作为GRPO的伪标签,其中Evol-RL添加了新颖性项以缓解多数投票可能导致的“认知崩溃”。RL-Without-GT(Xin等,2025)用表面信号(如格式、长度)替代数学推理中的真实正确性。RENT(Prabhudesai等,2025)、EM-RL(Agarwal等,2025)和INTUITOR(Zhao等,2026)采用不同路径,将生成器自身的token熵或自确定性作为内在奖励,推动策略向更尖锐的输出分布发展。尽管这些方法各自在目标场景(通常是具有可验证结构的数学或代码)中有效,但它们共享一个共同特性:奖励完全来源于生成器自身的输出。我们将这种奖励称为**自引用**奖励。其风险在于结构性的:当模型以多个rollout一致同意的方式系统性出错,或对错误输出赋予高置信度时,奖励会强化错误而非纠正它。多数投票变体还要求每个提示有标准答案,无法扩展到开放式生成——这排除了现代后训练(Rafailov等,2023;Bai等,2022)所追求的质量和对齐目标。 我们提出一种不同的方法。我们不是让生成器对自己的输出进行投票或衡量其自身置信度,而是询问一个独立的、有能力的模型:生成器的响应是否让它感到意外?**跨模型熵(CME)**,即生成器响应在**独立验证器模型**下的负对数似然,是一种连续的、token级别的、无需训练的信号,且无需真实标签。低CME表示验证器认为该响应不意外。最大化期望CME等价于最小化反向KLD D_KL(π_θ ∥ π_φ)(加上生成器熵项),当验证器在领域内比生成器更能干时,这是一个有用的目标。该方法之所以可行,是因为像Gemma-3(Gemma Team,2025)这样的开源指令微调模型即使不是前沿模型,也足以作为有意义的响应质量评估器。我们将CME集成到GRPO中,无需对训练循环做其他更改,从而将无标签RL扩展到开放式指令遵循领域——这是现代后训练的动机所在,也是自引用信号不适用或效果欠佳的场景。我们在UltraFeedback的子集上训练,并使用LLM-as-Judge评估AlpacaEval 2.0胜率(Dubois等,2024),发现CME奖励在四个模型家族(Qwen、Llama、Gemma、OLMo)和三种训练范式(预训练、SFT、指令微调)中均优于未训练的基础模型。在SFT骨干网络上,CME-GRPO与使用相同基础网络、仅使用UltraFeedback提示而不使用其偏好标注进行DPO训练的结果相当。我们还展示了性能随验证器能力提升而扩展,并且随机初始化的验证器控制组表现劣于所有真实权重验证器——这证实了信号源于跨模型评估,而非通用正则化。 ## 2 方法 #### 预备知识:GRPO 组相对策略优化(GRPO)(Shao等,2024)无需学习评论家即可微调策略π_θ。给定提示x,GRPO从π_θ中采样G个响应{y_i}ᵢ₌₁^G,每个响应计算奖励r_i,然后计算组归一化优势Â_i = (r_i - μ_r)/σ_r。策略通过带有KL惩罚的裁剪代理目标进行更新,该惩罚针对冻结的参考策略π_ref;完整目标见附录A。标准GRPO为每个响应分配单个标量奖励。在先前的无标签工作中,r_i来源于多数投票(Zuo等,2025)或格式代理(Xin等,2025)。我们则从跨模型熵中导出r_i。 #### 跨模型熵奖励 我们用来自与生成器π_θ不同家族的验证器模型π_φ导出的无标签信号替换GRPO的奖励。设y_i = (y_{i,1}, ..., y_{i,T_i})是由生成器分词后的响应。位置t的逐token跨模型熵定义为:CME_{i,t} = -log π_φ(y_{i,t} | x, y_{i,<t})。这与标准交叉熵相同,但关键区别在于:概率来自验证器,而非生成器序列模型。令ε > 0为PPO裁剪参数。完整的CME-RL目标为:L_CME-RL = -1/G Σᵢ 1/|y_i| Σₜ min(ρ_{i,t} Â_{i,t}, clip(ρ_{i,t},1-ε,1+ε) Â_{i,t}) + β D_KL(π_θ ∥ π_ref)。 (2) 这是标准的GRPO目标,只是奖励r_{i,t}被替换为负CME;其他所有项不变。 #### 序列级变体 当不需要位置级信用分配时,我们聚合为标量奖励r_i = -CME(y_i),其中CME(y_i) = 1/S_i Σ_s -log π_φ(z_{i,s} | x, z_{i,
相似文章
在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
微调提升了语言模型的信息传递能力
本文引入冠层熵(CE⋆)来衡量语言模型中生成空间的有效大小,并发现微调将不确定性重新组织为更具信息量和语义意义的输出,使熵率与语义多样性之间的相关性几乎增加了两倍。
重新审视熵正则化:自适应系数释放其在LLM强化学习中的潜力
本文提出自适应熵正则化(AER)框架,通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用,解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。
基于语义奖励的强化学习实现低资源语言扩展而无对齐代价
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则
本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。