语言模型中对齐算法的机制分析

arXiv cs.LG 论文

摘要

本文对六种偏好优化方法(PPO、DPO、SimPO、ORPO、GRPO、KTO)在三种开源模型系列上进行了系统性的机制分析,通过探针和稀疏自编码器揭示了对齐算法如何以不同的方式重塑内部表示。

arXiv:2606.09850v1 公告类型:新 摘要:后训练对齐算法通常被当作黑箱进行评估,这掩盖了它们如何重塑语言模型的内部计算。我们对六种偏好优化方法(PPO、DPO、SimPO、ORPO、GRPO、KTO)在三种开源权重模型系列上进行了系统性的机制分析。通过整合逐层线性探针、稀疏自编码器和交叉编码器,我们定位了偏好表示并量化了对齐引起的潜在空间几何变换。我们发现偏好信号一致地集中在早期到中期或中期到后期的层中,但不同的目标导致了性质不同的表示偏移。KTO和GRPO通过建设性的特征共享和稀疏的高显著性募集来增强线性可分性。相比之下,DPO和ORPO通过非建设性的几何旋转和特征衰减来降低可分性,而PPO和SimPO则基本保留了基线几何结构。这些变换表现出依赖于架构的可变性,表明行为对齐并不意味着内部结构的一致改变。我们的发现将对齐确立为一种异质性干预,推动了安全性和可解释性的标准化特征级审计,并强调了对机制感知优化目标的需求。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:13

# 语言模型对齐算法的机制分析  
来源:https://arxiv.org/html/2606.09850  

Aarush Sinha 哥本哈根大学 & Ishan Garg 独立研究者 & Veeraraju Elluru IIT Jodhpur & Arth Singh NIT Agartala & Kushal Garg Narris  

###### 摘要  

后训练对齐算法通常以黑箱方式评估,掩盖了算法如何重塑语言模型内部计算过程。我们对六种偏好优化方法(PPO, DPO, SimPO, ORPO, GRPO, KTO)在三个开放权重模型家族上进行了系统的机制分析。通过整合逐层线性探测、稀疏自编码器和交叉编码器,我们定位了偏好表征,并量化了对齐引起的潜在空间几何变换。我们发现,偏好信号一致集中在早期-中期或中期-后期层,但不同目标会导致本质不同的表征偏移。KTO 和 GRPO 通过建设性特征共享和稀疏、高显著性的特征招募增强了线性可分性。相反,DPO 和 ORPO 通过非建设性的几何旋转和特征衰减降低可分性,而 PPO 和 SimPO 基本保留了基准几何结构。这些变换表现出架构依赖性差异,表明行为对齐并不意味着统一的内部重构。我们的发现将对齐确立为一种异质性干预,推动了标准化特征级审计以确保安全性和可解释性,并强调了需要机制感知的优化目标。  

## 1 引言  

大型语言模型(LLM)的快速扩展(OpenAI, 2026; GLM-5-Team 等, 2026; Team 等, 2025)产生了具有卓越能力的系统,但这些模型经常表现出与人类价值观和安全要求不一致的行为。为弥合这一差距,该领域已聚焦于后训练算法,旨在引导模型行为走向有用、无害和诚实。基于人类反馈的强化学习(RLHF)通常通过近端策略优化(PPO)实现,为这个过程建立了初始范式(Ouyang 等, 2022; Schulman 等, 2017)。此后,该领域已多样化,包括直接或无奖励模型的偏好目标,如直接偏好优化(DPO)(Rafailov 等, 2023)以及其他方法,包括简单偏好优化(SimPO)(Meng 等, 2024)、优势比偏好优化(ORPO)(Hong 等, 2024)、卡尼曼-特沃斯基优化(KTO)(Ethayarajh 等, 2024)和群体相对策略优化(GRPO)(Shao 等, 2024)。  

尽管算法数量不断增长,但这些方法的评估仍然主要停留在行为层面。我们通过基准测试上的聚合指标或人类偏好评分来评估对齐成功与否,实际上将模型视为黑箱。虽然这些评估确认了对齐的发生,但它们几乎没有提供关于模型内部计算如何重新配置的见解。这一诊断缺口至关重要:如果不了解这些算法的机制基础,我们就无法严格预测意外的副作用,例如特定能力的退化或欺骗性行为的出现。随着社区追求更透明、更可靠的 AI,超越输出级评估、转向对齐的机制理解势在必行。  

在本文中,我们对对齐算法的内部影响进行了全面的诊断分析。我们比较一组具有代表性的方法——PPO, DPO, SimPO, ORPO, KTO 和 GRPO——以研究这些多样的优化目标是否收敛于相似的内部表征,还是产生不同的特征级变化。为此,我们采用了多种常用于研究模型内部的工具:训练稀疏自编码器(SAE)(Cunningham 等, 2023)将叠加激活分解为可解释特征;使用交叉编码器(Lindsey 等, 2024)比较基准模型和对齐模型的特征是如何共享、旋转或成为模型特有的;并采用线性探测(Tigges 等, 2023)检测和定位残差流中偏好相关的表征。  

先前的工作已对特定对齐方法的内部影响提供了重要见解,但针对最广泛使用的目标和模型架构的比较性图景仍然有限。我们的贡献如下:  

1.  **全面的对齐诊断**。我们在 UltraFeedback 数据集上评估了六种后训练方法,横跨三个开放权重模型家族。我们通过白箱比较内部表征(而非仅模型输出)展示了每种对齐微调方法具有独特特征。  
2.  **不同对齐特征的特征级证据**。线性探针、SAE 和交叉编码器揭示,KTO 和 GRPO 改善了(线性)偏好可解码性,而 PPO 和 SimPO 维持了该可解码性。相反,DPO 和 ORPO 通过不同的特征几何变化降低了 Llama-3.2 和 Qwen3 上的(线性)可分性:DPO 与非建设性的共享特征旋转相关,而 ORPO 则衰减了偏好相关激活。  
3.  **架构依赖的内部效应**。相同的对齐目标可能在不同模型家族中产生不一致的特征分布。这表明关于对齐方法内部效应的主张必须限定于所分析的基础架构和层。  

![图1](路径)  
图 1:我们框架的整体流程,包含两个阶段。第一阶段,我们选择预训练语言模型进行对齐,包括 Llama-3.2、Qwen3 和 SmolLM3,并对每个模型应用多种对齐算法以获得对齐变体。第二阶段,我们对基础和已对齐模型进行机制可解释性分析,以研究表征、特征和层级别的变化:(1) 线性探测用于识别和比较对齐前后信息量最大的层;(2) 在选定层上训练稀疏自编码器 (SAE) 以分析特征激活的差异;(3) 训练交叉编码器以比较基础模型和对齐模型之间共享和偏移的特征分布。  

## 2 相关工作  

表 1:按模型家族和对齐方法划分的 MT-Bench (Bai 等, 2024) 分数。Ma/Re:数学/推理;Co/St:编程/STEM;Ex/Hu:提取/人文学科;Wr/Rp:写作/角色扮演。分数为评判平均值(每个模型 n=80 轮次)。Base 是该家族公开的指令检查点。我们通过 OpenAI API 使用 GPT-5.4-mini 作为 LLM 评估器。  

| Family | Align. | Avg. | Quantitative | Technical | Knowledge | Open-ended |
|--------|--------|------|--------------|-----------|-----------|------------|
|        |        | Avg. | Ma | Re | Co | St | Ex | Hu | Wr | Rp |
| SmolLM-3B | Base | 4.84 | 7.30 | 5.35 | 4.75 | 4.95 | 4.50 | 4.10 | 3.80 | 3.95 |
| | DPO | 4.70 | 7.10 | 5.80 | 4.10 | 5.30 | 4.70 | 3.95 | 2.90 | 3.75 |
| | GRPO | 4.69 | 7.60 | 5.75 | 3.85 | 5.30 | 4.35 | 3.40 | 3.65 | 3.65 |
| | KTO | 4.70 | 7.20 | 4.85 | 3.70 | 4.65 | 4.90 | 3.70 | 4.55 | 4.05 |
| | ORPO | 4.70 | 6.85 | 5.40 | 3.70 | 4.85 | 4.75 | 3.95 | 4.00 | 4.10 |
| | PPO | 4.94 | 7.55 | 6.35 | 3.75 | 5.05 | 4.95 | 4.30 | 3.70 | 3.85 |
| | SimPO | 4.59 | 7.20 | 4.75 | 4.80 | 4.65 | 4.80 | 3.75 | 3.30 | 3.45 |
| Llama-3.2-3B | Base | 6.33 | 8.25 | 6.30 | 4.80 | 5.35 | 7.15 | 5.70 | 6.70 | 6.40 |
| | DPO | 6.45 | 8.60 | 6.30 | 5.15 | 5.70 | 7.50 | 6.00 | 6.30 | 6.05 |
| | GRPO | 6.36 | 8.25 | 6.05 | 4.95 | 5.50 | 7.55 | 6.30 | 6.30 | 5.95 |
| | KTO | 6.31 | 7.80 | 6.00 | 4.90 | 5.55 | 7.50 | 5.70 | 6.80 | 6.25 |
| | ORPO | 2.12 | 2.75 | 3.10 | 1.45 | 2.80 | 2.20 | 1.30 | 1.70 | 1.65 |
| | PPO | 6.23 | 7.75 | 5.85 | 5.05 | 5.85 | 6.95 | 6.25 | 6.30 | 5.85 |
| | SimPO | 6.62 | 8.65 | 6.55 | 5.30 | 5.80 | 7.30 | 6.20 | 6.80 | 6.40 |
| Qwen3-4B-Instruct | Base | 7.35 | 8.45 | 7.15 | 6.50 | 7.05 | 9.00 | 6.10 | 7.35 | 7.20 |
| | DPO | 7.39 | 8.85 | 6.95 | 6.45 | 7.00 | 8.85 | 6.70 | 7.50 | 6.80 |
| | GRPO | 7.35 | 8.55 | 6.40 | 6.20 | 7.20 | 9.20 | 6.45 | 7.50 | 7.30 |
| | KTO | 7.28 | 8.90 | 6.75 | 6.45 | 6.65 | 9.10 | 6.50 | 7.05 | 6.80 |
| | ORPO | 5.41 | 6.55 | 5.60 | 4.55 | 5.10 | 6.95 | 4.25 | 6.20 | 4.10 |
| | PPO | 7.37 | 8.75 | 7.40 | 6.10 | 7.20 | 9.30 | 6.35 | 6.95 | 6.90 |
| | SimPO | 7.33 | 8.00 | 6.45 | 6.35 | 7.35 | 9.40 | 6.70 | 7.10 | 7.30 |

**偏好优化算法**  
通过 RLHF(Christiano 等, 2017; Bakker 等, 2022; Stiennon 等, 2022)进行后训练对齐,利用人类偏好信号优化语言模型,已成为模型开发的标准阶段(Ouyang 等, 2022; Bai 等, 2022; Touvron 等, 2023)。近端策略优化(PPO)(Schulman 等, 2017)已在此设置中被广泛使用,尽管其计算成本和不稳定性催生了其他偏好优化方法。直接偏好优化(DPO)(Rafailov 等, 2023)并不是 PPO 意义上的 RLHF 算法;它将偏好学习表述为对配对数据的监督优化。后续方法进一步扩展了目标设计空间:KTO(Ethayarajh 等, 2024)采用了前景理论公式,SimPO(Meng 等, 2024)移除了参考模型,ORPO(Hong 等, 2024)将优势比惩罚集成到 SFT 目标中,而 GRPO(Shao 等, 2024)使用群体相对奖励稳定策略梯度。

**机制可解释性**  
机制可解释性研究特征级表征和模型计算背后的因果回路(Olah 等, 2020; Elhage 等, 2021)。Transformer 表征源于注意力头和 MLP 层之间的交互,残差流充当共享通信通道(Olsson 等, 2022)。一个核心挑战是叠加现象,即模型编码的特征多于可用维度(Elhage 等, 2021)。稀疏自编码器(SAE)(Cunningham 等, 2023; Templeton 等, 2024)通过将激活分解为稀疏、可解释的特征来解决这一问题。诸如 Gemma Scope(Lieberum 等, 2024)等扩展提供了逐层 SAE 覆盖以进行系统分析。线性探测(Alain and Bengio, 2018)提供了一种互补的、非因果的度量,判断概念是否可从表征中线性解码。交叉编码器(Lindsey 等, 2024)将稀疏特征分析扩展到模型比较,通过联合编码两个相关模型或层的激活,然后检查配对的解码器几何结构。这使得区分微调后共享、基础特有、对齐特有、放大、衰减或重定向的特征成为可能。最近的工作表明,稀疏性压力可能会产生虚假的模型独占特征,并提出了改进的训练和评估实践以实现更可靠的模型差异分析(Minder 等, 2026)。  
另一条可解释性工作线来自因果回路分析。在这里,使用因果干预(如激活修补或组件消融)来测试特定注意力头、MLP 或残差流方向是否对某种行为是必要的。此类工作已识别出间接对象识别(Wang 等, 2022)、归纳行为(Olsson 等, 2022)以及 MLP 层中局部化事实回忆机制(Meng 等, 2023; Geva 等, 2021)的电路。最近的工作将因果机制分析扩展到循环推理架构,证明了向循环不动点的收敛和注意力行为的稳定(Blayney 等, 2026)。  
我们的研究使用了特征级诊断,并未进行组件级分析。

**对齐与内部表征**  
对齐训练以与其后训练目标直接相关的方式改变内部表征的几何结构。先前的工作表明,微调和 RLHF 会重新分配跨层的表征,并调整残差流中的方向(Konen 等, 2024)。交叉编码器分析表明,聊天微调引入了与模板令牌相关的局部特征(Minder 等, 2026)。这些结果在安全背景下尤其相关,因为后训练可能不仅改变模型行为,也改变用于解释该行为的内部信号。最近的工作认为,安全微调通过特定的内部变换(而非纯粹的输出级变化)运作(Jain 等, 2024)。后训练算法如 RLVR 可以以削弱或逃避基于探测的检测的方式转移内部状态,即使行为看似改善(Taufeeque 等, 2026)。DPO 在早期层降低了有毒特征的线性可解码性,同时将其转移到后期层(Lee 等, 2024)。然而,这些工作并未涵盖标准对齐微调方法和模型家族的全貌。

## 3 方法论与实验  

为确保我们发现在不同架构上的鲁棒性和普适性,我们评估了三种不同的语言模型:Llama-3.2-3B-Instruct(Grattafiori 等, 2024)、SmolLM3-3B(Bakouch 等, 2025)和 Qwen3-4B-Instruct(Yang 等, 2025)。这些模型代表了 4B 参数规模下最新的开放权重架构,为分析对齐表征提供了全面的测试平台。我们使用 Transformers(Wolf 等, 2020)和 TRL(von Werra 等, 2020)库来对齐我们的模型。

### 3.1 对齐  

我们通过 LoRA 微调基础模型,使用六种主要的偏好优化算法(PPO、SimPO、GRPO、DPO、ORPO、KTO)来研究对齐微调(AFT)的内部表征。我们使用 UltraFeedback(Cui 等, 2024)数据集的不同变体,以确保与每种对齐方法兼容。对于 DPO 和 SimPO,我们使用原始版本(argilla/ultrafeedback-binarized-preferences-cleaned)。

相似文章

大语言模型中词汇对齐与偏好阶段转变的全自动识别

arXiv cs.CL

本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。

StoicLLM:小语言模型中基于哲学对齐的偏好优化

arXiv cs.CL

本研究探讨了在Llama-3.2-3B和Qwen-3-4B等小型语言模型上使用偏好优化方法(ORPO、AlphaPO),通过微小数据集使其与斯多葛哲学对齐。研究发现,尽管300个样本可以有效编码斯多葛美德,但小型模型在处理外向型的宇宙公民义务时仍面临困难。

我们的对齐研究方法

OpenAI Blog

OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。