大型语言模型的对齐微调：以数据为中心的视角看对齐数据流水线

arXiv cs.CL 2026/05/27 04:00 论文

llm-alignment data-centric survey preference-tuning alignment-pipeline academic-paper

摘要

本综述将大型语言模型的对齐微调重新表述为一个数据流水线设计问题，将其分解为三个环节：响应合成、偏好评估和偏好实例化。它识别了设计权衡和失败模式，并概述了开放挑战，如提示级对齐和智能体设置。

arXiv:2605.26442v1 Announce Type: new 摘要：对齐微调文献大多围绕优化目标组织，而对齐数据的构建通常被隐式处理。在本综述中，我们采用数据为中心的视角，将对齐微调重新表述为一个流水线设计问题。我们将对齐数据构建分解为三个相互作用的阶段：响应合成、偏好评估和偏好实例化，并利用这一框架将现有对齐方法组织成一个统一的分类体系。通过这一视角，我们识别了先前对齐方法中反复出现的设计权衡和失败模式，并提炼出一套高层次原则，阐明流水线设计选择如何影响最终的优化信号。最后，我们概述了对齐数据流水线的开放挑战，包括提示级对齐、智能体设置以及在目标演化条件下的对齐。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:05

# 1 引言 来源：https://arxiv.org/html/2605.26442 大型语言模型的对齐微调：以数据为中心的视角审视对齐数据流水线Hwanjun SongKAIST大量对齐微调文献围绕优化目标展开，而对齐数据的构建通常被隐性处理。在本综述中，我们采用以数据为中心的视角，将对齐微调重新定义为流水线设计问题。我们将对齐数据构建分解为三个相互作用的阶段：响应合成、偏好评估和偏好实例化，并利用这一框架将现有对齐方法组织成统一的分类体系。通过这一视角，我们识别出先前对齐方法中反复出现的设计权衡与失败模式，并提炼出一套高层原则，阐明流水线设计选择如何影响最终优化信号。最后，我们概述了对齐数据流水线面临的开放挑战，包括提示级对齐、智能体设置以及目标演变下的对齐。日期：2026年4月6日通信：Hwanjun Song，邮箱：[email protected] (https://arxiv.org/html/2605.26442v1/mailto:[email protected])发表：将出现在 ACL'26 的 Findings 中。![[无标题图片]](https://arxiv.org/html/2605.26442v1/figures/dislab-icon-final.png) 大型语言模型（LLMs）的进步由扩展定律驱动，这得益于模型参数的增加 (Kaplan et al.,2020 (https://arxiv.org/html/2605.26442#bib.bib1))、架构创新 (Fedus et al.,2022 (https://arxiv.org/html/2605.26442#bib.bib2); Wu et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib3)) 以及优化技术的进步 (Yu et al.,2025b (https://arxiv.org/html/2605.26442#bib.bib5))。随着扩展的边际收益趋于平缓，性能提升已转向以数据为中心的因素，数据质量成为关键驱动力 (Chung et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib7); Zhuang et al.,2025 (https://arxiv.org/html/2605.26442#bib.bib6); Nazar et al.,2025 (https://arxiv.org/html/2605.26442#bib.bib8))。尽管有这种转变，大多数先前工作通过*静态语料库*看待数据质量，聚焦于预训练或监督微调（SFT）的数据集组成与过滤 (Brown et al.,2020 (https://arxiv.org/html/2605.26442#bib.bib10); Liu et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib18); 2025c (https://arxiv.org/html/2605.26442#bib.bib17))。然而，这种静态视角不足以解释现代 LLM 的安全性、鲁棒性和偏好遵循。这些属性主要是在*对齐微调*阶段塑造的，这是一个区别于预训练的后训练阶段 (Ji et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib44); Rafailov et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib4); Bai et al.,2025 (https://arxiv.org/html/2605.26442#bib.bib16))。与固定分布的监督不同，对齐数据本质上是*动态*且*策略相关*的，是通过提示、模型输出和反馈信号之间的反复交互生成的 (Li et al.,2025d (https://arxiv.org/html/2605.26442#bib.bib9); Yu et al.,2025a (https://arxiv.org/html/2605.26442#bib.bib22); Liu et al.,2025b (https://arxiv.org/html/2605.26442#bib.bib23))。因此，对齐质量较少受静态数据人工产物支配，更多受迭代构建和评估这些数据的机制影响。因此，我们将对齐微调概念化为一个*流水线设计*问题，而非数据集策展任务。对齐微调中的质量不仅取决于保留哪些样本，还取决于候选行为如何生成、评估以及如何结构化到学习目标中。我们引入一个统一框架，包含三个相互作用的维度：响应合成、偏好评估和偏好实例化。图1 (https://arxiv.org/html/2605.26442#S1.F1) 总结了这一点，强调了紧密耦合的阶段如何共同构建优化信号。 *(1) 响应合成：* 该阶段通过确定候选响应的生成方式来定义对齐的行为支持。关键设计选择包括响应来源（离线蒸馏与在线采样） (Rafailov et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib4); Zhang et al.,2025c (https://arxiv.org/html/2605.26442#bib.bib14); Yu et al.,2025c (https://arxiv.org/html/2605.26442#bib.bib15))、优先选择信息量丰富的候选策略，以及用于保留多样性并避免过早模式崩溃的探索机制 (Wu et al.,2025b (https://arxiv.org/html/2605.26442#bib.bib13); Lanchantin et al.,2025 (https://arxiv.org/html/2605.26442#bib.bib12))。 *(2) 偏好评估：* 给定合成响应后，对齐依赖于偏好信号的保真度。这一维度涵盖评估器类型，从人工标注到可扩展的 LLM 作为评判者框架 (Lee et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib25); Yu et al.,2025c (https://arxiv.org/html/2605.26442#bib.bib15))，以及判断粒度和目标维度，这些决定了偏好保真度以及在标量化和粗粒度监督下奖励欺骗或对齐代价的风险 (Li et al.,2025a (https://arxiv.org/html/2605.26442#bib.bib31); Mukherjee et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib29))。 *(3) 偏好实例化：* 最后，偏好实例化决定如何将评估判断暴露给优化过程。这包括点式奖励 (Ethayarajh et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib26); Yuan et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib30))、成对对比 (Rafailov et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib4); Meng et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib32)) 以及组式或列表式形式 (Ramesh et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib35); Liu et al.,2025g (https://arxiv.org/html/2605.26442#bib.bib33))，这些形式在偏好结构如何有效转化为策略更新方面存在差异。从这个视角出发，我们将先前工作组织成一个统一的数据中心分类体系（第4 (https://arxiv.org/html/2605.26442#S4) 至 6 节 (https://arxiv.org/html/2605.26442#S6)），并提炼出一套设计原则，描述数据流水线阶段中反复出现的权衡和跨阶段交互（第7节 (https://arxiv.org/html/2605.26442#S7)）。 相关综述。现有关于以数据为中心的 LLM 训练的综述主要强调静态数据阶段，例如预训练和 SFT 中的数据选择 (Albalak et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib37); Wang et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib38))、数据集目录 (Liu et al.,2025h (https://arxiv.org/html/2605.26442#bib.bib40)) 或通用训练范式 (Minaee et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib39))，以及系统级考虑 (Xu et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib36); Zhou et al.,2025 (https://arxiv.org/html/2605.26442#bib.bib41))。相比之下，我们将对齐微调视为一个动态的闭环流水线，研究响应合成、评估和实例化如何共同塑造对齐结果。 参见图注图 1：对齐数据流水线概览，展示提示如何通过响应合成、偏好评估和偏好实例化转化为结构化优化信号，用于策略优化。 我们的范围。第2.2节 (https://arxiv.org/html/2605.26442#S2.SS2) 提供了对齐算法的简要概述，但我们分析的重点是对齐数据流水线。关于优化算法的详细讨论已归入现有的对齐技术综述 (Xiao et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib43))、直接偏好优化 (Liu et al.,2025e (https://arxiv.org/html/2605.26442#bib.bib46))、统一损失设计 (Tang et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib127)) 以及奖励欺骗等基本局限 (Casper et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib45))。 ## 2 对齐微调基础 开发 LLM 的核心挑战在于其训练目标与人类偏好之间的不匹配 (Stiennon et al.,2020 (https://arxiv.org/html/2605.26442#bib.bib28); Ouyang et al.,2022 (https://arxiv.org/html/2605.26442#bib.bib24); Bai et al.,2022 (https://arxiv.org/html/2605.26442#bib.bib51))。标准的下一词元预测最大化数据似然，这与有用性、诚实性和安全性等期望在很大程度上是正交的。因此，仅通过预训练和监督微调训练的模型可能表现出事实错误或有害行为，尽管其似然性能很高。对齐微调通过显式优化模型使其行为符合人类价值来弥补这一差距。 ### 2.1 问题形式化令 $x$ 表示从任务分布 $P$ 中采样的提示，$y$ 表示策略 $\pi_\theta$ 生成的响应。我们假设存在一个反映人类偏好的预言奖励函数 $r^*(x, y)$。对齐微调旨在寻找最优策略 $\pi^*$，使其在最大化期望奖励的同时保持与参考策略 $\pi_{\text{ref}}$ 接近，从而防止奖励欺骗和不受控制的漂移 (Ji et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib44); Yeh et al.,2025 (https://arxiv.org/html/2605.26442#bib.bib42))： $$ \max_{\pi_\theta} \mathbb{E}_{x,y} \left[ r^*(x, y) - \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)} \right], \tag{1} $$ 其中 $\beta$ 是控制偏离参考模型程度的正则化系数。 ### 2.2 优化算法 已经提出了多种方法来求解式 (1 (https://arxiv.org/html/2605.26442#S2.E1))。我们回顾三种基础方法，它们代表了对齐微调的演进。详见附录 A (https://arxiv.org/html/2605.26442#A1) 及其他算法。 *近端策略优化（PPO）*是显式奖励最大化的方法 (Schulman et al.,2017 (https://arxiv.org/html/2605.26442#bib.bib48))。它分两个阶段运作。首先，训练一个奖励模型 $r_\phi(x, y)$ 通过成对比较数据来近似预言偏好 $r^*(x, y)$。其次，使用强化学习优化策略 $\pi_\theta$ 以最大化学到的奖励。PPO 采用截断的代理目标函数以确保稳定更新，限制策略更新的步长以防止灾难性遗忘参考分布。 *直接偏好优化（DPO）*通过推导式 (1) 中 KL 正则化目标的最优策略，绕过了显式奖励建模阶段 (Rafailov et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib4))。该推导表明，奖励可以通过策略与固定参考模型之间的对数似然比隐式捕获。因此，优化简化为一个关于成对响应 $(y_w, y_l)$ 的分类式目标，直接增加偏好输出 $y_w$ 相对于不偏好输出 $y_l$ 的似然，无需单独训练的奖励模型。 *组相对策略优化（GRPO）*从成对比较转向组式优化 (Shao et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib52))。它不依赖学习的评论家，而是通过计算当前策略 $\pi_\theta$ 对同一提示采样的输出组的平均奖励来估计响应的基线。策略模型被更新以增加性能优于组平均水平的响应的概率。它降低了与外部奖励模型相关的方差，并消除了对单独值网络的需求。 ## 3 从以数据为中心的视角理解对齐微调 虽然优化算法更新策略模型 $\pi_\theta$，但它们本身并不决定对齐的方向或质量。相反，从以数据为中心的视角来看，对齐结果由对齐数据流水线的设计所支配，该流水线指定了候选行为的空间、评估这些行为的机制以及偏好信号暴露给优化的结构。 ### 3.1 对齐数据作为优化信号 对齐微调依赖于通过数据流水线构建的偏好信号，而非先验给定。我们形式化这一过程如何产生最终驱动策略更新并塑造学习行为的优化信号。 形式化对齐数据流水线。与静态预训练语料库不同，对齐数据是通过迭代流水线动态构建的，该流水线耦合了响应生成和偏好评估。我们将所得数据集 $\mathcal{D}$ 形式化为由三个交互组件产生的结构化训练实例的集合： $$ \mathcal{D} = \Big\{ \big(x, \;\mathbf{y}, \;\mathbf{s}\big) \;\Big|\; x \sim P(x),~ \mathbf{y} \sim \mathcal{S}(\mathbf{y}\mid x),~ \mathbf{s} \sim \mathcal{E}(\mathbf{s}\mid x, \mathbf{y}) \Big\}. \tag{2} $$ 这里，$x$ 是从任务分布 $P$ 中采样的提示；$\mathbf{y} = \{y_1, \ldots, y_k\}$ 是由响应合成策略 $\mathcal{S}$ 生成的一组候选响应，它定义了对齐可用的行为支持；$\mathbf{s}$ 代表由评估器 $\mathcal{E}$ 分配的偏好信号，随后通过偏好实例化结构化，以形成训练信号，例如标量分数、成对偏好或对 $\mathbf{y}$ 的排序。 优化作为边际对齐。对齐算法优化策略 $\pi_\theta$，使其隐式偏好与对齐数据集 $\mathcal{D}$ 中编码的显式信号相匹配。在 PPO (Schulman et al.,2017 (https://arxiv.org/html/2605.26442#bib.bib48))、DPO (Rafailov et al.,2023 (https://arxiv.org/html/2605.26442#bib.bib4)) 和 GRPO (Shao et al.,2024 (https://arxiv.org/html/2605.26442#bib.bib52)) 中，这个过程可以视为*边际对齐*，其中优化使策略诱导的偏好边际与观察到的偏好信号对齐。给定提示 $x$、候选响应 $\mathbf{y}$ 和偏好信号 $\mathbf{s}$，对齐微调旨在调整策略 $\pi_\theta$，使其隐式偏好与 $\mathbf{s}$ 中编码的偏好信息的结构和幅度一致，从而使模型行为与数据集 $\mathcal{D}$ 所诱导的监督对齐。该目标可以抽象地写为： $$ \max_{\theta} \; \mathbb{E}_{\mathcal{D}} \big[ f \big( M_\theta(x, \mathbf{y}, \mathbf{s}) \big) \big], \tag{3} $$ 其中 $M_\theta(x, \mathbf{y}, \mathbf{s})$ 表示一个对齐度量，衡量策略诱导的隐式偏好与偏好信号 $\mathbf{s}$ 的对齐程度。函数 $f$ 将对齐度量转化为可优化的目标，同时保留相对偏好排序。 流水线决定优化信号。式 (2 (https://arxiv.org/html/2605.26442#S3.E2)) 和式 (3 (https://arxiv.org/html/2605.26442#S3.E3)) 共同表明，对齐结果不仅由优化目标决定，还取决于对齐数据流水线如何构建其输入。虽然式 (3) 中的

大型语言模型的对齐微调：以数据为中心的视角看对齐数据流水线

相似文章

大语言模型不确定性中的人类对齐、校准与激活模式

我们的对齐研究方法

大语言模型中词汇对齐与偏好阶段转变的全自动识别

大语言模型预训练的数据混合：综述与展望

2026年4月14日 | 对齐研究 | 自动化对齐研究者：利用大语言模型扩展可扩展监督

提交意见反馈