基于熵-KL散度的令牌掩码：一种用于大型语言模型选择性微调的新方法

arXiv cs.AI 2026/05/29 04:00 论文

fine-tuning llm token-masking entropy kl-divergence supervised-fine-tuning reinforcement-learning

摘要

提出了 EKSFT，一种面向大型语言模型的选择性微调方法，该方法掩码具有高熵或与参考模型高KL散度的令牌，在注入任务知识的同时保留预训练分布。在数学推理基准上的实验表明，它优于标准SFT，并改进了后续的RL微调。

arXiv:2605.29303v1 公告类型：新摘要：监督微调（SFT）后接强化学习（RL）已成为大型语言模型的标准后训练范式。该范式为RL探索提供了冷启动，避免了纯RL中同策略采样产生阳性样本不足的低效问题。然而，在实践中，现有方法通常使用与RL阶段相比较少的数据进行SFT初始化，这可能导致模型拟合有限样本并偏离其预训练分布。这种分布偏移阻碍了模型在后续RL训练中有效探索的能力。为了解决这一挑战，我们提出在低数据场景下，SFT应优先激活任务相关能力，而非记忆特定内容。沿着这一思路，我们提出了EKSFT（熵-KL选择性微调），该方法选择性地掩码那些具有高熵或与参考模型高KL散度的令牌。通过将这些高不确定性、分布偏移的令牌排除在模仿之外，EKSFT在注入任务特定知识的同时保持了模型预训练分布的完整性。在数学推理基准上的实证评估表明，EKSFT持续优于标准SFT。从EKSFT模型进一步进行RL微调，能够持续获得更好的后RL性能，表明改进了RL阶段的探索。我们的代码和数据集可在 https://github.com/MINE-USTC/EKSFT 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:16

# 基于熵-KL散度的Token掩码：大语言模型选择性微调的新方法
来源：https://arxiv.org/html/2605.29303
Qi Liu¹, Mingdi Sun¹, Yongyi He¹, Zhi Zheng¹, Tong Xu¹, Yi Zheng², Zhefeng Wang², Enhong Chen¹ ¹中国科学技术大学 ²华为云 \{liuqilq, sun\-123, vagabond\}@mail\.ustc\.edu\.cn \{zhengzhi97, tongxu, cheneh\}@ustc\.edu\.cn \{zhengyi29, wangzhefeng\}@huawei\.com

###### 摘要

监督微调（SFT）后接强化学习（RL）已成为大语言模型的标准后训练范式。该范式为RL探索提供了冷启动，避免了纯RL中因on-policy采样产生不足的正样本而导致的低效问题。然而，在实践中，现有方法通常使用相较于RL阶段较少的数据进行SFT初始化，这可能导致模型拟合有限的样本，并偏离其预训练分布。这种分布偏移阻碍了模型在后续RL训练中进行有效探索的能力。为应对这一挑战，我们提出，在低数据量场景下，SFT应优先*激活*任务相关能力，而非*记忆*特定内容。基于此，我们提出了EKSFT（Entropy-KL Selective Fine-Tuning），它选择性地掩码那些相对于参考模型表现出高熵或高KL散度的token。通过将这些高不确定性、偏离分布的token排除在模仿之外，EKSFT在注入任务特定知识的同时，保持了模型预训练分布的完整性。在数学推理基准上的实证评估表明，EKSFT始终优于标准SFT。从EKSFT模型进一步进行RL微调，可以持续获得更好的RL后性能，表明其对RL阶段探索的改进。我们的代码和数据集可在 https://github.com/MINE-USTC/EKSFT 获取。

## 1 引言

最近，监督微调（SFT）后接强化学习（RL）的两阶段训练流程在大语言模型（LLMs）的各类下游应用中展示出了卓越的能力（Dao and Vu, 2025 (https://arxiv.org/html/2605.29303#bib.bib11); Zhi et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib50); Pang et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib26); Yang et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib40); OpenAI, 2023 (https://arxiv.org/html/2605.29303#bib.bib24)），但其局限性也日益明显。一个合理的观点是，SFT提供了冷启动，因为纯RL往往产生的正样本不足以支持高效学习。然而，最近的研究表明，SFT可能会损害模型的探索能力，从而可能影响后续RL训练的性能（Chen et al., 2025b (https://arxiv.org/html/2605.29303#bib.bib5); Zhang et al., 2025b (https://arxiv.org/html/2605.29303#bib.bib44), c (https://arxiv.org/html/2605.29303#bib.bib45)）。

![参见标题](https://arxiv.org/html/2605.29303/x1.png)
图1：我们在OpenR1数据集上训练Qwen3-8B，并在AIME25上评估Pass@K性能。这些结果表明，当K超过某个阈值（例如图中K=140）时，SFT模型的性能可能不如Base模型。这一局限性源于SFT本质上是在专家数据上进行行为克隆（Chu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib9); Qin and Springenberg, 2025 (https://arxiv.org/html/2605.29303#bib.bib29); Zhu et al., 2025b (https://arxiv.org/html/2605.29303#bib.bib52)），当数据集有限或与预训练语料分布不一致时，模型可能会遭受严重的参数偏移，导致泛化能力下降。同时，逐token的模仿倾向于使策略分布变得尖锐，降低了rollout的多样性，这在RL阶段不利于收集足够多样的rollout。如图1 (https://arxiv.org/html/2605.29303#S1.F1) 所示，在较大K值下，SFT模型的Pass@K（Chen et al., 2025d (https://arxiv.org/html/2605.29303#bib.bib7)）低于Base模型，这表明SFT缩小了有效输出分布，降低了采样多样性。

为解决上述问题，现有方法主要可分为两条研究路线。一类方法结合SFT训练目标和RL训练目标，以利用两种范式的优势（Zhang et al., 2025c (https://arxiv.org/html/2605.29303#bib.bib45); Wu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib33); Yan et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib39); Fu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib13); Chen et al., 2025c (https://arxiv.org/html/2605.29303#bib.bib6); He et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib15)）。例如，DFT（Wu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib33)）将SFT重新表述为RL目标，而CHORD（Zhang et al., 2025c (https://arxiv.org/html/2605.29303#bib.bib45)）、BRIDGE（Chen et al., 2025c (https://arxiv.org/html/2605.29303#bib.bib6)）和AMFT（He et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib15)）等方法使用静态或动态权重来平衡训练中的两个目标。然而，在实践中，混合这两个目标通常需要精细的调参，且对权重调度高度敏感。另一类工作集中于修改SFT目标，以改善后续RL阶段的泛化能力。例如，PSFT（Zhu et al., 2025b (https://arxiv.org/html/2605.29303#bib.bib52)）采用裁剪后的替代目标来防止策略过度更新，而IW-SFT（Qin and Springenberg, 2025 (https://arxiv.org/html/2605.29303#bib.bib29)）和ASFT（Zhu et al., 2025a (https://arxiv.org/html/2605.29303#bib.bib51)）利用重要性加权（Rubinstein and Kroese, 2016 (https://arxiv.org/html/2605.29303#bib.bib30)）来控制分布偏移，从而保持RL阶段的训练稳定性。然而，这些方法仍然对所有token统一施加监督，并依赖全局正则化来控制偏差。此外，它们没有明确解决熵坍缩问题（Cui et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib10)），这可能会削弱模型的探索能力（Xie et al., 2024 (https://arxiv.org/html/2605.29303#bib.bib35)）。

为了应对这些挑战，我们提出，当SFT作为后续RL的初始化阶段时，应着眼于*激活*任务相关能力，而非*记忆*特定内容（Chu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib9); Xie et al., 2024 (https://arxiv.org/html/2605.29303#bib.bib35)），以提高SFT模型的泛化能力并增强后续RL阶段的探索。沿着这一思路，我们提出了熵-KL选择性微调（EKSFT），它选择性地掩码那些相对于参考模型表现出高熵或高KL散度的token，其中高熵token通常表示模型的不确定性较高，高KL散度的token表示偏离参考模型。此外，EKSFT引入了熵损失（Zhang et al., 2025d (https://arxiv.org/html/2605.29303#bib.bib46); Cheng et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib8)）和KL散度损失（Li et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib20)）约束，以进一步缓解熵坍缩并保持与预训练分布的接近。通过将选择性掩码与显式正则化相结合，EKSFT在保持较小参数偏移和缓解熵坍缩的同时，注入了任务相关知识。本文的贡献概括如下：

- •我们提出了关于SFT-then-RL范式的新视角：当SFT作为后续RL的初始化阶段时，应着眼于*激活*任务相关能力，而非*记忆*特定内容。
- •我们提出了EKSFT，一种新颖的方法，通过选择性地掩码高熵和高KL散度的token，并结合熵和KL正则化损失来改进SFT，从而增强后续RL阶段的泛化能力和探索能力。
- •在多个基准上，针对多个最先进（SOTA）基线的实证评估表明了我们提出的EKSFT的有效性和优越性能。

## 2 相关工作

### 2.1 监督微调

SFT通过在任务特定数据集上训练（Chu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib9); Xu et al., 2025a (https://arxiv.org/html/2605.29303#bib.bib36), 2026 (https://arxiv.org/html/2605.29303#bib.bib37)），使预训练模型适应下游任务。它通常作为多阶段后训练流水线中的初始化阶段。然而，最近的研究表明，标准的交叉熵（CE）损失并非SFT的最佳选择（Li et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib20); Xiao, 2024 (https://arxiv.org/html/2605.29303#bib.bib34)），指出使用标准CE损失进行微调通常会显著降低多样性。此外，SFT本质上是在进行行为克隆（Chu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib9)），当用作后续RL的冷启动时，可能会导致分布尖锐化，降低探索能力。GEM（Li et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib20)）提出了一种基于博弈论的SFT算法，通过逆向KL散度最小化来保持多样性并缓解过拟合。IW-SFT（Qin and Springenberg, 2025 (https://arxiv.org/html/2605.29303#bib.bib29)）和ASFT（Zhu et al., 2025a (https://arxiv.org/html/2605.29303#bib.bib51)）引入了重要性加权机制以增强泛化能力。PSFT（Zhu et al., 2025b (https://arxiv.org/html/2605.29303#bib.bib52)）受TRPO（Schulman et al., 2015 (https://arxiv.org/html/2605.29303#bib.bib31)）启发，采用裁剪后的替代目标，为后续优化留出空间。尽管如此，这些方法仍然对所有token统一施加监督并进行全局正则化，导致后续RL阶段的泛化能力欠佳。

### 2.2 面向LLM对齐的强化学习

强化学习（RL）已被广泛用于增强大语言模型（LLMs）与人类偏好的对齐（Bai et al., 2022 (https://arxiv.org/html/2605.29303#bib.bib1); Ouyang et al., 2022 (https://arxiv.org/html/2605.29303#bib.bib25)）。最近的进展通过在数学和代码生成等复杂推理任务中利用基于可验证奖励的强化学习（RLVR）（Guo et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib14); Zhang et al., 2025a (https://arxiv.org/html/2605.29303#bib.bib43)），展示了卓越的成功（DeepSeek-AI, 2024 (https://arxiv.org/html/2605.29303#bib.bib12)）。RLVR利用程序化验证器，如单元测试（Poznanski et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib28)）或答案检查器（Yu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib41)），提供奖励信号以实现卓越性能。然而，基于RL的探索通常受到基座模型正样本不足的限制，导致计算开销大且学习效率低（Wu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib33); Zhu et al., 2025b (https://arxiv.org/html/2605.29303#bib.bib52)）。这一局限性促使在RL阶段之前需要一个初始化阶段，以激活基座模型的相关能力。

### 2.3 结合监督微调与强化学习

为利用SFT和RL的互补优势，最近的研究探索了它们的结合（Ouyang et al., 2022 (https://arxiv.org/html/2605.29303#bib.bib25); Sheng et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib32); Liu et al., 2025a (https://arxiv.org/html/2605.29303#bib.bib21)）。SFT-then-RL范式（Lambert et al., 2024 (https://arxiv.org/html/2605.29303#bib.bib17); Liu et al., 2025b (https://arxiv.org/html/2605.29303#bib.bib22)）被广泛采用，它是一个两阶段训练流水线，首先使用SFT初始化模型，然后通过RL进行进一步优化，并已在医疗和金融等LLM应用领域被广泛采用（Zhi et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib50); Pang et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib26)）。同时期的 DFT（Wu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib33)）认为SFT的梯度更新等价于一个策略梯度，从而对SFT目标进行重新缩放。CHORD（Zhang et al., 2025c (https://arxiv.org/html/2605.29303#bib.bib45)）、AMFT（He et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib15)）和BRIDGE（Chen et al., 2025c (https://arxiv.org/html/2605.29303#bib.bib6)）通过设计结合SFT和RL目标的加权联合损失函数，将SFT和RL统一起来。SRFT（Fu et al., 2025 (https://arxiv.org/html/2605.29303#bib.bib13)）通过熵感知的加权机制整合了两种微调范式。然而，联合优化通常对权重调度高度敏感，在实践中可能不稳定，而基于CE的模仿仍可能导致分布尖锐化并减少探索。相比之下，我们通过选择性token掩码机制和细粒度正则化来改进标准SFT，旨在增强后续RL阶段的泛化能力和探索能力。

## 3 预备知识

#### 监督微调。

SFT是将LLMs适应下游任务的常用方法。给定一个监督数据集 D = \{(x_i, y_i^*)\}_{i=1}^N，其中 x_i 表示提示，y_i^* = (y_{i,1}, y_{i,2}, ...) 表示对应的响应，长度为 |y_i^*| 个token。目标是训练策略模型 π_θ 以最大化给定提示 x_i 时响应 y_i^* 的似然：

L_SFT(θ) = -E_{(x_i, y_i^*) ~ D} [∑_{t=1}^{|y_i^*|} log π_θ (x_i, y_{i,t} | y_{i,<t}^*)].

其中，y_{i,<t}^* = (y_{i,1}, y_{i,2}, ..., y_{i,t-1}) 表示索引 t 之前的token。

#### Token级熵。

Token级熵量化了语言模型产生的下一个token概率分布的不确定性。给定一个提示 x 和语言模型分布 π_θ，时间步 t 处的token级熵定义为：

H(π_θ(·|x, y_{<t})) = -∑_{v ∈ V} π_θ(v|x, y_{<t}) log π_θ(v|x, y_{<t})

其中 V 表示词汇表，y_{<t} 表示索引 t 之前的token。

#### LLMs中的Token级Kullback-Leibler散度。

KL散度是一种统计散度，用于量化一个概率分布与另一个概率分布之间的差异。给定两个语言

基于熵-KL散度的令牌掩码：一种用于大型语言模型选择性微调的新方法

相似文章

@maximelabonne: 这真是太棒了！动态微调（DFT）根据模型自身的 token 概率重新加权 SFT 损失，这产生了一个……

选择性优势熵自适应范围GRPO：用于语言模型高效强化学习的非对称令牌级折扣

随机分词法提高模型鲁棒性

面向大语言模型激活稀疏化的敏感性感知阈值化与令牌路由

可学习性引导的扩散语言模型微调

提交意见反馈