目标条件监督学习用于LLM微调

arXiv cs.LG 2026/05/19 04:00 论文

llm fine-tuning supervised-learning goal-conditioned alignment offline-methods

摘要

本文提出了目标条件监督学习（GCSL）作为LLM的离线微调框架，该方法将反馈作为显式目标，通过一种新颖的目标公式和自然语言目标表示，使用监督学习训练模型。在无毒生成、代码生成和LLM推荐三个任务上的评估显示，该方法优于标准的离线基线方法。

arXiv:2605.16345v1 Announce Type: new 摘要：大型语言模型通常需要微调以更好地使其行为与部署时的用户意图对齐。现有方法通常分为在线和离线两种范式。在线方法（如基于RL的对齐）可以直接优化结果质量，但通常依赖外部奖励模型和迭代生成，使得在许多情况下成本高昂且难以部署。离线方法更加高效，但主流方法如监督微调（SFT）和直接偏好优化（DPO）仍存在局限：SFT通常将分级反馈压缩为二元监督，而DPO依赖于成对偏好数据，这些数据往往不可获取或构建成本高昂。在本文中，我们提出了目标条件监督学习（GCSL）作为LLM的离线微调框架。我们的核心思想是将反馈信号直接视为显式目标，并通过纯粹的监督学习训练模型生成达到该目标的响应。为了更好地利用分级反馈，我们进一步引入了一种新颖的目标公式，将学习定义为持续追求高于目标质量阈值的结果，而不是模仿从选定的高质量子集中采样的样本。这种设计通过明确引导模型学习质量的定向进展，缓解了SFT和经典GCSL的有界学习效应。我们还提出了自然语言目标表示，以更好地利用LLM的语义理解和推理能力。我们在三个任务上评估了我们的方法：无毒生成、代码生成和LLM推荐。结果表明，我们的方法在保持监督学习的效率、可扩展性和简单数据要求的同时，始终优于标准的离线微调基线。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:41

# 目标条件监督学习用于大语言模型微调

来源：https://arxiv.org/html/2605.16345

Shijun Li¹, Kaiwen Dong², Xiang Gao², Joydeep Ghosh⁴

¹,⁴德克萨斯大学奥斯汀分校，²Intuit AI研究

shijunli@utexas\.edu

###### 摘要

大型语言模型通常需要微调，以使其行为在部署时更好地与用户意图对齐。现有方法通常分为在线和离线两种范式。在线方法，如基于强化学习的对齐，可以直接优化结果质量，但通常依赖外部奖励模型和迭代采样，导致成本高昂且在许多情况下难以部署。离线方法效率更高，但主流方法如监督微调（SFT）和直接偏好优化（DPO）仍有局限：SFT通常将分级反馈压缩为二元监督，而DPO依赖通常难以获取或构建成本高昂的成对偏好数据。在本文中，我们提出将目标条件监督学习（GCSL）作为大语言模型的离线微调框架。我们的核心思想是直接将反馈信号视为一个明确的目标，并通过纯粹的监督学习训练模型，使其生成能够实现该目标的回答。为了更好利用分级反馈，我们进一步引入了一种新颖的目标公式：将学习定义为持续追求高于某个质量阈值的结果，而非简单模仿从选定的高质量子集中抽取的样本。这种设计通过明确引导模型学习质量的定向提升，缓解了SFT和经典GCSL的有界学习效应。我们还提出了自然语言目标表示，以更好地利用大语言模型的语义理解和推理能力。我们在三个任务上评估了我们的方法：无毒性生成、代码生成以及推荐场景的大语言模型应用。结果表明，我们的方法在保持监督学习的高效性、可扩展性和简单数据需求的同时，始终优于标准的离线微调基线。

## 1 引言

大语言模型展现出强大的通用能力，但其预训练目标通常无法在部署时可靠地产生用户期望的行为。因此，微调已成为对齐的标准途径。现有微调方法可大致分为在线和离线范式。在线方法，最显著的是基于强化学习的对齐方法（如PPO/GRPO），通过迭代采样和由奖励信号驱动的更新来优化模型行为。虽然这些方法通过直接优化结果目标能够带来强劲性能，但它们往往伴随着显著的实践限制：通常依赖外部奖励模型，而该模型训练成本高昂且可能与真实用户需求不匹配，从而在优化中引入有害噪声和偏差 [37, 15]。此外，在线采样和迭代更新耗时且消耗资源，使得此类方法在许多真实场景中难以扩展或部署 [35, 34]。这些限制推动了离线微调方法的广泛应用。

当前大多数离线微调方法可大致分为监督微调（SFT）或直接偏好优化（DPO）（以及密切相关的基于偏好的目标） [35, 31]。DPO通过从偏好比较中学习来避免在线强化学习，但它需要成对格式的训练数据（偏好输出与不偏好输出），而这并非总是可用或易于构建。相比之下，SFT可以直接利用从现实场景收集的原始序列数据，如用户对话记录、推荐系统中的交互日志或其他行为轨迹，因此应用广泛且易于操作化。然而，这种灵活性也带来一个重要限制：在实践中，SFT通常将可用的细粒度反馈或奖励信号简化为二元正确性概念（通常通过手工设定的阈值）[10]，然后模仿选定的“正面”子集。这种阈值处理丢弃了分级反馈中包含的细粒度信息，使性能对阈值敏感，并将所有正面样本视为同等良好的示范，这可能使学习偏向选定子集的平均质量，而不是明确鼓励持续改进以产生更高质量的结果。

本文研究目标条件监督学习（GCSL）[24, 29] 作为大语言模型的离线微调范式。许多实际部署场景自然会提供反馈信号，如数值评分或类别判断。GCSL不是将这些信号转化为同质示范（SFT）、成对比较（DPO）或需要学习奖励模型和在线强化学习（PPO/GRPO）的奖励，而是提出一种直接的重新框架：将反馈视为明确的目标，并通过监督学习训练模型生成实现该目标的回答。这带来了三个关键优势。首先，它可以直接利用反馈（分数或类别），而无需外部奖励模型或成对样本。其次，它在纯监督框架内实现了长时间跨度的目标达成优化，从而保留了标准监督训练的高效性和可扩展性，避免了在线采样和依赖奖励模型的迭代。第三，也是最重要的，我们的方法旨在克服SFT和经典GCSL的一个关键限制：学习过程隐性地受限于所选训练子集的平均质量。为解决此问题，我们引入了一种新颖的目标达成目标，将目标定义为持续追求高于给定质量阈值的结果。这种表述更好地利用了分级反馈，避免了监督信号坍缩为无差别的正样本或成对对比样本，并鼓励模型在数据中不同目标之间泛化其目标寻求行为。换句话说，新的目标达成目标旨在推动性能的定向提升，突破特定选定子集内的有界学习约束。

此方向上最相近的先前工作是Quark [30]，它虽然将目标条件思想引入大语言模型优化，但仍存在若干缺点。首先，Quark仍然依赖在线流程和外部奖励模型，降低了效率，并继承了奖励模型误设的风险。其次，其通过最高量化得分箱定义目标的方式，仍然趋向于类似SFT的行为，限制了超过该箱平均质量的改进。最后，其特殊标记的目标表示可能未能充分利用模型固有的语义理解和外推能力。这些问题促使我们提出一种纯粹离线的监督公式：直接利用反馈作为目标，重新定义目标以更好地反映优化目标，并使用自然语言目标表示来更好地利用大语言模型的语义能力和世界知识。

我们的主要贡献概括如下：

- • 我们将大语言模型微调重新定义为目标条件监督学习，从而能够从直接反馈信号中进行训练，同时避免在线依赖奖励模型的训练和成对偏好数据，受益于高训练效率、可扩展性和数据通用性。
- • 我们引入了一种新颖的目标达成目标，以克服SFT和经典GCSL的一个关键限制，后者的学习目标受限于所选训练子集的平均质量。通过将学习定义为持续追求高于目标质量阈值的结果，我们的方法更好地利用了分级反馈，缓解了有界学习效应，并明确推动质量的定向提升。我们还提出了自然语言目标表示，它更好地利用了大语言模型固有的语义理解和外推能力。
- • 我们在无毒性生成、代码生成和推荐任务上评估了我们的方法，以展示其通用性和有效性。实验结果表明，它在显著优于标准离线微调基线的同时，保持高效率和简单的数据需求。

## 2 相关工作

**大语言模型微调。** 微调是将预训练大语言模型与用户意图和部署约束对齐的标准方法。监督微调（SFT）因其简单性和稳定性而被广泛使用，但对于非二元反馈（例如，标量评级），它通常依赖手工设定的阈值来选择“好”样本，然后将所有保留的正样本同等对待。这使得性能对阈值敏感，并使学习偏向所选子集的平均质量，而非持续改进以达到更高质量的结果。为了超越模仿，许多流程采用基于强化学习的微调（例如，PPO/GRPO），这通常需要外部奖励模型和迭代在线更新。这类奖励模型训练成本高昂，且常常与实际情况不符，从而在优化中引入噪声和偏差，同时在线采样增加了大量计算成本和复杂性。基于偏好的方法如DPO避免了显式强化学习，但需要成对偏好数据，这在许多场景中可能不可用。我们的工作则致力于寻找一种更直接、更高效的替代方案：仅使用监督学习和现成的标量或分类反馈来优化结果质量。更多讨论见附录C.8。

**目标条件监督学习。** 目标条件监督学习（GCSL）提供了一种类似强化学习的范式，同时保持纯粹的监督性质。通过将策略条件于明确的目标并从监督目标中学习，GCSL可以在不进行值估计或策略梯度优化的情况下训练目标达成行为。GCSL中目标的定义可以非常宽泛，例如特定状态、累积奖励或轨迹应达到的最终结果 [24, 29, 5]。一个密切相关的大语言模型尝试是Quark [30]，它引入了目标条件优化，但仍然是需要奖励模型的在线方法。更重要的是，其目标与特定的量化得分箱绑定，这可能将目标条件化简化为对这些子集的模仿，并限制超出平均质量的收益。相比之下，我们的方法将目标重新定义为达成高于目标质量阈值的结果，从而在纯粹的离线监督学习框架内产生更符合推理优化目标的目标。我们还用自然语言表达目标，以更好地利用大语言模型的语义理解和推理能力。SteerLM [11] 与Quark类似，仍然需要奖励模型进行在线更新。一些近期工作也将GCSL思想用于大语言模型相关学习，但它们的目标表述与我们的有实质性差异。例如，Nathet al. [33] 使用受GCSL启发的思想来训练条件于未来目标的奖励模型，而PNLC [20] 则学习一个Q函数来评估达到目标目标状态的动作。由于这些方法并非直接设计用于将GCSL应用于大语言模型微调，我们不将其纳入比较。

## 3 方法论

在本节中，我们首先将有离线反馈的大语言模型微调问题形式化为一个目标条件下的序列建模问题。然后，我们描述经典GCSL的离线改编版本用于大语言模型微调，分析其局限性，最后引入我们的超出阈值公式（GCSL-bey）及其自然语言变体（GCSL-bey-NL）。

### 3.1 经典GCSL用于大语言模型微调

#### 问题设定。
我们将自回归大语言模型视为一个目标条件策略。给定输入提示和/或上下文 \(x\)，模型逐token生成回答序列 \(y = (y_1, \ldots, y_T)\)，其中每个下一个token决策可视为一个动作，而完整回答可视为通向某种目标结果的轨迹。我们的离线训练集为：
\[\mathcal{D} = \{(x_i, y_i, r_i)\}_{i=1}^N,\]
其中 \(r_i\) 表示与完整回答 \(y_i\) 关联的反馈信号。根据应用场景，\(r_i\) 可以是标量分数（例如，无毒性水平、代码效率得分）或有序分类判断（例如，用户分类评级）。重要的是，与基于在线强化学习的对齐方法不同，我们假设这些反馈信号已存在于日志数据中，要么来自直接用户反馈，要么来自已有的任务评估器。因此，在离线微调过程中，无需在线采样、奖励模型拟合或迭代重新评分。

#### 离线奖励量化。
遵循经典GCSL研究（如Trajectory Transformer [23] 和Quark [30]）的标准方法，我们首先使用等频分箱将训练数据中的反馈信号转换为有限的目标标签集。对于标量或有序反馈，设 \(\tau_1 < \tau_2 < \cdots < \tau_K\) 为有序分箱边界，并设 \(Q(r) \in \{1, \ldots, K\}\) 为相应的量化器。每个量化级别由一个特殊的目标标记 \([R_k]\) 表示。对于每个示例 \((x_i, y_i, r_i)\)，我们令
\[q_i = Q(r_i), \quad g_i^{\mathrm{cls}} = [R_{q_i}],\]
并构建量化后的离线数据集：
\[\widetilde{\mathcal{D}}_{\mathrm{cls}} = \{(x_i, y_i, g_i^{\mathrm{cls}})\}_{i=1}^N.\]
如果反馈已经是分类的，则可以直接将类别本身用作目标标签。值得注意的是，与Quark反复探索、重新评分和重新量化新采样输出的做法不同，我们在微调前对固定的离线数据集进行一次量化。

参见图注：
图1：将经典GCSL应用于大语言模型微调的工作流程。

#### 目标条件监督微调。
给定量化后的数据集，我们使用标准教师强制方法，以目标为条件对语言模型进行微调：
\[\mathcal{L}_{\mathrm{cls}}(\theta) = -\sum_{i=1}^N \sum_{t=1}^{T_i} \log p_\theta(y_{i,t} \mid x_i, g_i^{\mathrm{cls}}, y_{i, <t}).\]
该损失函数直接优化下一个token的预测概率，使模型学会在给定输入和期望目标的情况下生成与目标一致的输出。例如，在用户反馈评分为4的场景中，经典GCSL训练模型在看到目标标记 \([R_4]\) 时生成类似评分为4输出的回答。

#### 经典GCSL的局限性。
尽管经典GCSL避免了在线强化学习，但其学习目标仍然受到限制。当我们对奖励进行量化并将模型条件于特定的量化箱时，模型主要学习生成与该箱中观察到的输出相似的回答（即，箱内输出的平均风格和质量），而不会系统地学会如何产生比该箱典型质量更高的输出。换句话说，量化起到了阈值的作用：一旦输出被分配到某个箱，模型就被训练为模仿该箱内的样本，而不是被鼓励追求超越该箱质量的改进。图2通过合成示例说明了这一有界学习效应，并展示了我们的方法如何缓解它。

### 3.2 超越阈值的目标条件监督学习（GCSL-bey）

为了缓解经典GCSL的有界学习效应，我们提出了一种新颖的目标达成目标，称为“超越阈值”目标条件监督学习（GCSL-bey）。其核心思想是：不将模型条件于一个固定的离散质量级别，而是将目标定义为**生成结果高于某个目标质量阈值的回答**。关键创新在于，我们将目标重新定义为一种不等式条件：结果质量应当超过给定阈值，而非恰好匹配某个特定级别。这导向一个更丰富的监督信号：对于训练集中的每个示例 \((x_i, y_i, r_i)\)，我们不仅可以用其自身的质量标签 \(r_i\) 定义目标，还可以用低于 \(r_i\) 的所有可能阈值来定义目标。直观地说，如果一条回答的评分为4，那么它不仅应该被视为评分为4的目标示例，还应该被视为评分为\[R_1\]、\[R_2\]、\[R_3\]等更宽松目标下的正确示例。通过将模型条件于各种不同的质量阈值并提供相应的正样本，我们迫使模型学习输出的质量如何随目标变化：它观察到，当目标阈值较低时，较差质量的回答也可接受，但当目标阈值很高时，只有高质量的回答才被视为正例。这种对比结构鼓励模型捕捉质量的相对排序和提升方向，从而使其在推理时能够泛化到更高目标的响应—即超越训练数据中观察到的典型质量。形式上，对于每个训练示例 \((x_i, y_i, r_i)\)，我们定义一组满足“本质真实”阈值条件的目标：
\[g_i^{\mathrm{above}} = \{ k \in \{1, \ldots, K\} \mid \tau_k \leq r_i \},\]
其中 \(\tau_k\) 是第 \(k\) 个阈值。在实践中，我们通常使用量化箱的边界作为阈值，或者如果反馈是分类的，则使用有序类别。该集合中的每个目标都表明：示例 \((x_i, y_i)\) 在目标阈值至少为 \(k\) 时是成功的。通过将目标设定为“高于 \(\tau_k\)”，我们构建了增强后的训练数据集：
\[\widetilde{\mathcal{D}}_{\mathrm{above}} = \{(x_i, y_i, g) \mid (x_i, y_i, r_i) \in \mathcal{D}, \; g \in g_i^{\mathrm{above}}\}.\]
该数据集包含的示例数量是原始数据集的数倍，具体取决于反馈信号的粒度。每个示例都作为教师强迫下的正样本，用于条件式问答对 \((x, g)\)。因此，我们最小化以下标准监督目标：
\[\mathcal{L}_{\mathrm{bey}}(\theta) = -\sum_{(x_i, y_i, g) \in \widetilde{\mathcal{D}}_{\mathrm{above}}} \sum_{t=1}^{T_i} \log p_\theta(y_{i,t} \mid x_i, g, y_{i, <t}).\]
通过此训练，模型学会评估给定的目标阈值，并相应调整其回答质量。在推理时，我们设定一个高目标目标（通常是最高阈值或期望的质量水平），模型会自然倾向于生成符合最高质量标准的回答。GCSL-bey的工作流程总结于图3。

### 3.3 自然语言目标表示（GCSL-bey-NL）

在经典GCSL和GCSL-bey中，目标均以特殊的标记或离散索引表示（例如，\[R_4\]）。然而，大语言模型具备实质性的语义理解能力，这些能力可以通过自然语言表示得到更好的利用。自然语言目标比抽象标记提供更丰富的信号，使模型能够利用其在预训练期间习得的世界知识和语义知识。例如，一个关于用户对先前回复满意度（1-5分）的目标可以表述为“用户评分为3”或“用户非常满意”。对于代码生成，目标可以是“代码运行效率高且无错误”。这种表示紧密切合模型预训练中已经广泛接触的语义空间，有望改善泛化能力和条件控制的稳定性。因此，我们进一步提出GCSL-bey的自然语言变体，称为GCSL-bey-NL。在GCSL-bey-NL中，用于条件化的目标不是特殊标记，而是与指令或提示类似的自然语言字符串。具体而言，我们将每个量化级别的阈值转换为一个可读的描述。对于推荐场景，目标可能是“用户会给出5星评分”。对于代码生成，目标可以是“代码效率高”。与之前的公式类似，我们仍然对低于实际反馈值的所有阈值进行训练，但条件以自然语言形式表达。因此，数据集变为：
\[\widetilde{\mathcal{D}}_{\mathrm{NL}} = \{(x_i, y_i, g^{\mathrm{NL}}) \mid (x_i, y_i, r_i) \in \mathcal{D}, \; g^{\mathrm{NL}} \in g_i^{\mathrm{NL}}\},\]
其中 \(g_i^{\mathrm{NL}}\) 是相应阈值对应的自然语言描述集合。训练目标与式 (3) 相同，但以自然语言 \(g^{\mathrm{NL}}\) 代替了离散索引 \(g\)。这允许模型利用其预训练期间获得的丰富语义知识，将目标解释为有意义的概念而非抽象的索引。我们在实验中展示了GCSL-bey-NL的性能优势。

## 4 实验

我们设计了三个实验来验证我们提出的方法：在现实场景设置下的无毒性文本生成、代码生成和推荐。所有实验均在NVIDIA A100 GPU上进行。我们使用DeepSpeed ZeRO-3进行分布式训练。更多实现细节见附录A。代码已公开于此处。我们进行了A/B测试以验证结果的统计显著性。我们比较的方法包括：

- **SFT**：标准监督微调。
- **DPO**：直接偏好优化，使用与SFT相同的正样本和基于奖励差分的负样本。
- **PPO**：基于强化学习的微调，使用奖励模型。
- **Quark**：如3.1节所述的目标条件在线方法，使用奖励模型。
- **经典GCSL**：我们提出的纯离线目标条件监督学习，如3.1所述。
- **GCSL-bey**：我们提出的超越阈值目标公式，如3.2所述。
- **GCSL-bey-NL**：带自然语言目标的GCSL-bey，如3.3所述。

对于非毒性任务，我们还比较了更专业的方法：DExperts、PPLM和LLMEraser。有关这些基线的更多细节见附录B。

### 4.1 实验1：无毒性文本生成

**背景与设置。** 在第一个实验中，我们在一个被广泛研究的低资源场景下评估我们的框架：从少量人工评级数据中学习生成无毒性文本。我们使用Jigsaw毒性分类数据集 [17] 中的标注评论。具体来说，我们从“toxic”和“non-toxic”类别中各抽取250个样本，并使用Perspective API [2] 获得毒性评分。此设置模拟了现实场景，因为有毒样本极为稀缺。主要表现指标是*毒性概率*（越低越好）和*平均最大毒性*（越低越好）。两者均使用Perspective API测量。我们还报告生成文本在基座模型下的*困惑度*，作为语言质量的代理指标，并反映微调后模型偏离原始模型的程度。

表1：无毒性生成任务中不同方法的比较。

| 方法 | SFT | DExpert | PPLM | LLMEraser | GCSL | GCSL-NL | GCSL-bey | GCSL-bey-NL |
|------|-----|---------|------|-----------|------|---------|----------|-------------|
| 平均最大毒性↓ | 0.139 | 0.145 | 0.152 | 0.130 | 0.134 | 0.129 | 0.125 | 0.115 |
| 毒性概率↓ | 0.032 | 0.039 | 0.042 | 0.025 | 0.027 | 0.027 | 0.025 | 0.019 |
| 困惑度↓ | 59.43 | 61.03 | 61.42 | 57.67 | 55.09 | 58.67 | 54.02 | 58.27 |

**结果。** 表1展示了结果。总体而言，GCSL-bey-NL

目标条件监督学习用于LLM微调

相似文章

使用ART微调多模态大语言模型：基于艺术强化训练

学习，快与慢：走向持续适应的LLMs

快慢学习：迈向持续适应的大语言模型 [R]

LLM微调中数据选择的长期影响

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

提交意见反馈