基于跨模型熵的无标签强化学习

arXiv cs.LG 2026/05/29 04:00 论文

reinforcement-learning llm reward-signal cross-model-entropy label-free post-training instruction-following

摘要

提出跨模型熵（CME）作为一种无标签奖励信号，用于大型语言模型的强化学习后训练，无需真实验证器或人类偏好标签即可实现开放式指令遵循。

arXiv:2605.29009v1 公告类型：新摘要：使用强化学习对大型语言模型进行后训练的瓶颈在于奖励信号。现有方法要么需要可验证的真实奖励，将训练限制在具有自动正确性检查的领域（例如数学、代码执行），要么需要人类偏好标签，这些标签收集成本高昂且容易受到奖励破解的影响。最近的无标签方法用自我引用信号（如多数投票或模型自身输出的令牌熵）替代真实验证器，但有可能强化模型自身的错误。在这项工作中，我们提出跨模型熵（CME），即生成器响应在独立验证器模型下的平均对数似然，作为 RL 后训练的无标签奖励信号。CME 是连续的、无需训练的，并且基于这样一个原则：验证器认为不意外的响应很可能是正确或高质量的。由于验证器独立于生成器，该信号无法通过自洽性进行博弈。我们将 CME 集成到 GRPO 中，无需对训练循环进行其他更改，从而将无标签 RL 扩展到开放式指令遵循——这是一个自我引用信号不适用或不适合的领域。在开放式指令遵循（UltraFeedback 提示，在 AlpacaEval 2.0 上评估）中，CME 奖励在四种模型系列（Qwen、Llama、Gemma、OLMo）和三种训练方案（预训练、SFT 和指令微调）的头对头 LLM-as-Judge 比较中击败了未训练的基础模型，平局调整后的胜率范围从 52.5% 到 71.4%。代码将在发表后发布。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:15

# 基于跨模型熵的无标签强化学习  
来源：https://arxiv.org/html/2605.29009  
Matt Gorbett 独立研究者 [email protected]  
Hossein Shirazi 圣地亚哥州立大学 [email protected]  

###### 摘要  
使用强化学习对大语言模型进行后训练，其瓶颈在于奖励信号。现有方法要么需要基于真实性的可验证奖励（从而将训练局限于可自动进行正确性检查的领域，例如数学、代码执行），要么需要人工偏好标签（收集成本高且易引发奖励破解问题）。最近的无标签方法用自引用信号（例如对模型自身输出进行多数投票或计算token熵）取代了真实性验证器，但存在强化模型自身错误的风险。本文提出**跨模型熵（CME）**，即生成器响应在**独立验证器模型**下的平均对数似然，作为一种适用于RL后训练的无标签奖励信号。CME是连续的、无需训练的信号，其原理基于：验证器认为不意外的响应很可能是正确或高质量的。由于验证器独立于生成器，该信号无法通过自一致性来操纵。我们将CME集成到GRPO中，无需对训练循环做其他更改，从而将无标签RL扩展到开放式指令遵循领域——这是自引用信号不适用或效果欠佳的场景。在开放式指令遵循任务（UltraFeedback prompts，在AlpacaEval 2.0上评估）中，CME奖励在四个模型家族（Qwen、Llama、Gemma、OLMo）和三种训练范式（预训练、SFT、指令微调）的head-to-head LLM-as-Judge对比中均优于未训练的基础模型，经平局调整的胜率范围从52.5%到71.4%。代码将于论文发表后公开。  

# 基于跨模型熵的无标签强化学习  
Matt Gorbett 独立研究者 [email protected]  
Hossein Shirazi 圣地亚哥州立大学 [email protected]  

参见图注  
图1：Token级别的CME可定位响应内的质量差异。一个深思熟虑的答案获得均匀的低验证器惊讶度（平均CE=0.6）；一个空洞的答案在循环开始时出现峰值（平均CE=3.4）。Token级别的惊讶度将梯度信号集中在响应质量存在差异的位置，无需真实标签。  

## 1 引言  
强化学习已成为提升大语言模型推理能力和对齐效果的核心技术。PPO（Schulman等，2017）和GRPO（Shao等，2024）等方法在数学推理、代码生成和指令遵循（Guo等，2025）方面取得了显著进步。这些方法依赖于真实性验证器，从而将训练限制在可自动检查正确性的领域。另一种方案是基于人类偏好数据训练的奖励模型（Ouyang等，2022），DPO（Rafailov等，2023）等变体去除了奖励模型，RLAIF（Bai等，2022；Lee等，2023）则用LLM评判替换人类标注员。然而，这些方法都需要偏好数据，收集成本高且易引发奖励破解（Skalse等，2022）。  

最近的研究探索了无标签替代方案。TTRL（Zuo等，2025）和Evol-RL（Zhou等，2025）使用对采样响应的多数投票作为GRPO的伪标签，其中Evol-RL添加了新颖性项以缓解多数投票可能导致的“认知崩溃”。RL-Without-GT（Xin等，2025）用表面信号（如格式、长度）替代数学推理中的真实正确性。RENT（Prabhudesai等，2025）、EM-RL（Agarwal等，2025）和INTUITOR（Zhao等，2026）采用不同路径，将生成器自身的token熵或自确定性作为内在奖励，推动策略向更尖锐的输出分布发展。尽管这些方法各自在目标场景（通常是具有可验证结构的数学或代码）中有效，但它们共享一个共同特性：奖励完全来源于生成器自身的输出。我们将这种奖励称为**自引用**奖励。其风险在于结构性的：当模型以多个rollout一致同意的方式系统性出错，或对错误输出赋予高置信度时，奖励会强化错误而非纠正它。多数投票变体还要求每个提示有标准答案，无法扩展到开放式生成——这排除了现代后训练（Rafailov等，2023；Bai等，2022）所追求的质量和对齐目标。  

我们提出一种不同的方法。我们不是让生成器对自己的输出进行投票或衡量其自身置信度，而是询问一个独立的、有能力的模型：生成器的响应是否让它感到意外？**跨模型熵（CME）**，即生成器响应在**独立验证器模型**下的负对数似然，是一种连续的、token级别的、无需训练的信号，且无需真实标签。低CME表示验证器认为该响应不意外。最大化期望CME等价于最小化反向KLD D_KL(π_θ ∥ π_φ)（加上生成器熵项），当验证器在领域内比生成器更能干时，这是一个有用的目标。该方法之所以可行，是因为像Gemma-3（Gemma Team，2025）这样的开源指令微调模型即使不是前沿模型，也足以作为有意义的响应质量评估器。我们将CME集成到GRPO中，无需对训练循环做其他更改，从而将无标签RL扩展到开放式指令遵循领域——这是现代后训练的动机所在，也是自引用信号不适用或效果欠佳的场景。我们在UltraFeedback的子集上训练，并使用LLM-as-Judge评估AlpacaEval 2.0胜率（Dubois等，2024），发现CME奖励在四个模型家族（Qwen、Llama、Gemma、OLMo）和三种训练范式（预训练、SFT、指令微调）中均优于未训练的基础模型。在SFT骨干网络上，CME-GRPO与使用相同基础网络、仅使用UltraFeedback提示而不使用其偏好标注进行DPO训练的结果相当。我们还展示了性能随验证器能力提升而扩展，并且随机初始化的验证器控制组表现劣于所有真实权重验证器——这证实了信号源于跨模型评估，而非通用正则化。  

## 2 方法  
#### 预备知识：GRPO  
组相对策略优化（GRPO）（Shao等，2024）无需学习评论家即可微调策略π_θ。给定提示x，GRPO从π_θ中采样G个响应{y_i}ᵢ₌₁^G，每个响应计算奖励r_i，然后计算组归一化优势Â_i = (r_i - μ_r)/σ_r。策略通过带有KL惩罚的裁剪代理目标进行更新，该惩罚针对冻结的参考策略π_ref；完整目标见附录A。标准GRPO为每个响应分配单个标量奖励。在先前的无标签工作中，r_i来源于多数投票（Zuo等，2025）或格式代理（Xin等，2025）。我们则从跨模型熵中导出r_i。  

#### 跨模型熵奖励  
我们用来自与生成器π_θ不同家族的验证器模型π_φ导出的无标签信号替换GRPO的奖励。设y_i = (y_{i,1}, ..., y_{i,T_i})是由生成器分词后的响应。位置t的逐token跨模型熵定义为：CME_{i,t} = -log π_φ(y_{i,t} | x, y_{i,<t})。这与标准交叉熵相同，但关键区别在于：概率来自验证器，而非生成器序列模型。令ε > 0为PPO裁剪参数。完整的CME-RL目标为：L_CME-RL = -1/G Σᵢ 1/|y_i| Σₜ min(ρ_{i,t} Â_{i,t}, clip(ρ_{i,t},1-ε,1+ε) Â_{i,t}) + β D_KL(π_θ ∥ π_ref)。 (2)  
这是标准的GRPO目标，只是奖励r_{i,t}被替换为负CME；其他所有项不变。  

#### 序列级变体  
当不需要位置级信用分配时，我们聚合为标量奖励r_i = -CME(y_i)，其中CME(y_i) = 1/S_i Σ_s -log π_φ(z_{i,s} | x, z_{i,

基于跨模型熵的无标签强化学习

相似文章

在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能

微调提升了语言模型的信息传递能力

重新审视熵正则化：自适应系数释放其在LLM强化学习中的潜力

基于语义奖励的强化学习实现低资源语言扩展而无对齐代价

超越 GRPO 与策略内蒸馏：语言模型后训练的经验性“稀疏至稠密”奖励原则

提交意见反馈