PolyAlign: 条件化人类分布对齐

arXiv cs.CL 2026/06/12 04:00 论文

alignment language-models preference-optimization fine-tuning bilingual human-distribution

摘要

PolyAlign是一个分布感知的对齐框架，它将语言模型对齐到特定上下文的人类回复分布，而不是单一的全局风格，从而提升了双语环境下的自然性和忠实度。

arXiv:2606.13227v1 Announce Type: new 摘要：后训练方法，如监督微调（SFT）和偏好优化，通常将语言模型对齐到单一的全局助手行为。虽然这有助于提高平均有用性，但可能会抑制人类回复在不同语言、任务和对话场景中的自然变化。我们将此问题研究为条件化人类分布对齐：模型应该匹配当前交互上下文适当的人类回复分布，而不是通用的回复风格。我们引入了PolyAlign，一个分布感知的对齐框架，它将双语交互数据组织成由语言、交互轨迹、回复家族和长度定义的桶特定人类参考分布。PolyAlign结合了Bucket-Aware SFT（在不同桶之间平衡优化）和Human-Distribution Preference Optimization（HDPO），后者通过批评者估计的到桶特定人类支持的距离来正则化偏好学习。在一个涵盖英语和中文单轮和多轮设置的双语评估套件上，PolyAlign提高了条件自然性和分布忠实度，同时保持了竞争性的任务实用性。结果表明，后训练应超越全局对齐目标，转向与人类回复分布交互感知的对齐。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:52

# PolyAlign：条件性人类分布对齐

**来源：** https://arxiv.org/html/2606.13227

L. D. M. S. Sai Teja¹  Ufaq Khan²  Sathira Silva²  Xiao Wu²  Muhammad Haris Khan²  
¹印度尼西亚理工学院锡尔恰尔分校  ²穆罕默德·本·扎耶德人工智能大学，阿布扎比，阿联酋  
[email protected], {ufaq.khan, muhammad.haris}@mbzuai.ac.ae

###### 摘要

诸如监督微调 (SFT) 和偏好优化等后训练方法通常将语言模型对齐为单一的全局助手行为。虽然这有助于提高平均帮助性，但可能会抑制人类在不同语言、任务和对话场景中回复的自然多样性。我们将此问题研究为*条件性人类分布对齐*：模型应根据当前交互上下文匹配恰当的人类回复分布，而非追求通用的回复风格。我们引入 **PolyAlign**，一个分布感知的对齐框架，它将双语交互数据组织为按语言、交互轨道、回复家族和长度定义的桶特定人类参考分布。PolyAlign 结合了 **桶感知 SFT（Bucket-Aware SFT）**，它在异构桶间平衡优化，以及 **人类分布偏好优化（HDPO）**，它使用评判器估计的到桶特定人类支持的距离来正则化偏好学习。在涵盖英语和汉语单轮及多轮场景的双语评估套件上，PolyAlign 在保持竞争性任务效用同时，提升了条件自然性和分布忠实度。实验结果¹¹GitHub：https://github.com/saitejalekkala33/PolyAlign.git 表明，后训练应超越全局对齐目标，转向具备交互感知的人类回复分布对齐。

## PolyAlign：条件性人类分布对齐

L. D. M. S. Sai Teja¹  Ufaq Khan²  Sathira Silva²  Xiao Wu²  Muhammad Haris Khan²  
¹印度尼西亚理工学院锡尔恰尔分校  ²穆罕默德·本·扎耶德人工智能大学，阿布扎比，阿联酋  
[email protected], {ufaq.khan, muhammad.haris}@mbzuai.ac.ae

参见图注

**图1：PolyAlign vs. 全局对齐。** 与标准的 RLHF/DPO 风格后训练不同——后者可能将多样化的上下文压缩为一种通用助手风格——PolyAlign 将回复对齐到人类分布，从而生成更自然、更适合情境的回复。

## 1 引言

大型语言模型 (LLMs) 通过大规模预训练、指令微调和基于偏好的后训练而变得功能强大。这些方法显著提升了帮助性和指令遵循能力，促成了现代助手式系统。扩展研究证明，足够大的自回归模型仅从提示即可执行广泛任务 (Brown et al., 2020 (https://arxiv.org/html/2606.13227#bib.bib4))，而指令微调表明，对多样化任务指令进行 SFT 可以显著改善零样本泛化和交互质量 (Wei et al., 2022 (https://arxiv.org/html/2606.13227#bib.bib31); Sanh et al., 2022 (https://arxiv.org/html/2606.13227#bib.bib26); Chung et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib6); Wang et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib28))。另一进展来自基于人类演示、偏好数据和强化学习或偏好优化的对齐方法 (Christiano et al., 2017 (https://arxiv.org/html/2606.13227#bib.bib5); Stiennon et al., 2020 (https://arxiv.org/html/2606.13227#bib.bib27); Ouyang et al., 2022 (https://arxiv.org/html/2606.13227#bib.bib23); Bai et al., 2022b (https://arxiv.org/html/2606.13227#bib.bib2), a (https://arxiv.org/html/2606.13227#bib.bib1); Rafailov et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib25))。标准的后训练往往将多样化的交互推向一种通用助手风格，而非人类在每种情境下自然会给出的回复。PolyAlign 通过使后训练条件于人类回复分布，将模型回复在多种交互场景中对齐。我们将这里的对齐形式化为*条件性人类分布对齐*，如图1 (https://arxiv.org/html/2606.13227#S0.F1) 所示。**人类分布**是指在给定的交互场景下人类自然产生的回复集合，以及它们在内容、风格和形式上的变化。我们使用每个桶内的人类回复及其语言特征模式来表示该分布。偏好优化方法如 DPO、ORPO、SimPO、KTO 和 RRHF 表明，后训练目标可以在不需要完整 RL 管道的情况下强力重塑回复行为 (Rafailov et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib25); Yuan et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib34); Hong et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib13); Meng et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib22); Ethayarajh et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib9))。可控生成长期以来强调，有用的文本系统应支持在一系列目标分布间移动，而非优化单一的通用目标 (Keskar et al., 2019 (https://arxiv.org/html/2606.13227#bib.bib15); Dathathri et al., 2020 (https://arxiv.org/html/2606.13227#bib.bib7); Krause et al., 2021 (https://arxiv.org/html/2606.13227#bib.bib18); Yang and Klein, 2021 (https://arxiv.org/html/2606.13227#bib.bib33); Li and Liang, 2021 (https://arxiv.org/html/2606.13227#bib.bib20); Lester et al., 2021 (https://arxiv.org/html/2606.13227#bib.bib19))。训练后的分布匹配观点表明，标准 SFT 可能过度集中于学习到的生成分布，从而促使采用更明确的目标来定位回复分布 (Korbak et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib17); Li et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib21))。

#### 贡献。

- • 我们将**自然主义对齐**定义为匹配每个交互上下文恰当的人类回复分布，而非优化单一的全局助手行为。这种表述捕捉了回复风格、长度、话语结构和语言使用如何在不同交互模式下变化。
- • 我们引入 PolyAlign，一个框架，它将条件性分布目标通过 **桶-SFT** 集成到监督微调中，并通过 **HDPO** 集成到偏好优化中。
- • 我们开发了一个评估协议，用于评估条件自然性以及标准效用度量，从而可能量化任务性能与条件回复分布忠实度之间的权衡。更广泛地，我们的目标是将对齐问题从“我们如何让模型平均变得更好？”转变为“我们如何让模型为正确的交互产生正确的回复？”我们视此为后训练的自然下一步：从通用对齐迈向条件性、自然主义且交互感知的对齐。

## 2 相关工作

**指令微调和基于偏好的对齐。** LLM 后训练已从指令微调（改善少样本和零样本行为）(Brown et al., 2020 (https://arxiv.org/html/2606.13227#bib.bib4); Wei et al., 2022 (https://arxiv.org/html/2606.13227#bib.bib31); Sanh et al., 2022 (https://arxiv.org/html/2606.13227#bib.bib26); Chung et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib6)) 发展到合成和精选的对齐语料库，如 Self-Instruct、LIMA 和 OpenAssistant (Wang et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib28); Zhou et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib37); Köpf et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib16))。人类反馈方法同样从 RLHF 管道 (Christiano et al., 2017 (https://arxiv.org/html/2606.13227#bib.bib5); Stiennon et al., 2020 (https://arxiv.org/html/2606.13227#bib.bib27); Ouyang et al., 2022 (https://arxiv.org/html/2606.13227#bib.bib23); Bai et al., 2022b (https://arxiv.org/html/2606.13227#bib.bib2), a (https://arxiv.org/html/2606.13227#bib.bib1)) 演变为离线偏好目标，包括 RRHF、DPO、ORPO、SimPO 和 KTO (Yuan et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib34); Rafailov et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib25); Hong et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib13); Meng et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib22); Ethayarajh et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib9))。PolyAlign 建立在这些进展之上，但将目标从单一的全局助手行为转变为交互特定的人类回复分布。

**结构化对齐与可控生成。** 我们的工作与将对齐视为结构化而非一维的方法相关。多属性框架如 SteerLM 和 HelpSteer 将帮助性分解为多个维度 (Dong et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib8); Wang et al., 2024b (https://arxiv.org/html/2606.13227#bib.bib30), a (https://arxiv.org/html/2606.13227#bib.bib29))，而多样化偏好的研究表明反馈数据集可以编码不同的对齐行为 (Zeng et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib35))。可控生成方法同样将模型引导跨越行为家族而非单一通用模式，如 CTRL、PPLM、GeDi、FUDGE、Prefix-Tuning 和 Prompt Tuning 所示 (Keskar et al., 2019 (https://arxiv.org/html/2606.13227#bib.bib15); Dathathri et al., 2020 (https://arxiv.org/html/2606.13227#bib.bib7); Krause et al., 2021 (https://arxiv.org/html/2606.13227#bib.bib18); Yang and Klein, 2021 (https://arxiv.org/html/2606.13227#bib.bib33); Li and Liang, 2021 (https://arxiv.org/html/2606.13227#bib.bib20); Lester et al., 2021 (https://arxiv.org/html/2606.13227#bib.bib19))。这些工作激励了我们的表述，但我们不是依赖手动指定的属性或全局聚合的偏好，而是基于语言、交互轨道和回复家族来建模人类回复分布。

**分布感知的后训练。** 我们的框架也建立在后训练的分布观点之上，其中偏好信息被直接纳入语言模型训练 (Korbak et al., 2023 (https://arxiv.org/html/2606.13227#bib.bib17))，并且使用分布匹配目标来减少标准 SFT 常导致的过度集中 (Li et al., 2024 (https://arxiv.org/html/2606.13227#bib.bib21))。PolyAlign 通过针对每个交互桶恰当的人类回复分布来扩展这一视角。桶-SFT 对人类参考分布执行桶感知的监督学习，而 HDPO 则为离线偏好优化增加了桶感知权重和分布匹配正则化器。我们在紧凑型开放模型（如 Qwen2.5、Gemma 2 和 Llama 3.2）上研究这种设置。整个流程如图2 (https://arxiv.org/html/2606.13227#S2.F2) 所示。

参见图注

**图2：PolyAlign 流程。** PolyAlign 将双语交互数据组织为桶特定的人类分布，然后通过桶加权 SFT、基于评判器的分布训练和 HDPO 来对齐模型。最终模型使用 QA-F1、BNG-Macro、G-MAUVE 和 NUF 评估任务效用和条件自然性。

## 3 方法论

### 3.1 问题设置与桶化人类参考分布

目标不是学习单一的全局助手行为，而是将模型输出对齐到适合交互场景的人类回复分布。为此，我们将训练数据划分为一组桶 B，每个桶对应一个由元数据（如语言、交互轨道、回复家族和长度）定义的条件交互模式。令 b_i ∈ B 表示与实例 i 关联的桶，n_b 为桶 b ∈ B 中的训练实例数量。定义总训练样本数 N := Σ_{b∈B} n_b。

对于每个桶 b，我们估计一个桶特定的人类参考分布 Λ_b，该分布基于语言特征。令 z ∈ ℝ^d 表示回复的特征表示。我们在两个地方使用 Λ_b 的统计信息：一是重新平衡异构交互模式下的 SFT；二是定义一个评判分数，用于衡量候选回复与其桶的经验人类支持有多匹配。较低的评判分数表示与目标人类分布的更接近对齐。

### 3.2 桶感知监督微调 (Bucket-Aware Supervised Fine-Tuning)

这种对齐的一个核心困难是桶不平衡：频繁的交互模式在标准 SFT 中占据主导地位，尽管目标是在桶间平衡对齐（见表1 (https://arxiv.org/html/2606.13227#S4.T1)）。桶-SFT 通过为每个桶分配相等的优化质量来解决这个问题。令 ℓ_i(θ) 表示模型参数 θ 下每个样本的令牌归一化损失。我们为桶 b 中的每个 i 分配序列化前权重：w̃_b = N / (|B| n_b)。由此产生的桶-SFT 目标是：

L_Bucket-SFT(θ) := (Σ_{i=1}^N w̃_{b_i} ℓ_i(θ)) / (Σ_{i=1}^N w̃_{b_i})    (1)

###### 定理 1 (桶-SFT 优化精确宏桶风险)

对于权重 w̃_b，公式 (1) 中的桶-SFT 目标满足：

L_Bucket-SFT(θ) = (1/|B|) Σ_{b∈B} (1/n_b) Σ_{i: b_i=b} ℓ_i(θ)    (2)

等价地，每个桶贡献完全相同的总优化质量：Σ_{i: b_i=b} w̃_{b_i} = N/|B|，对于每个 b∈B。    (3)

**要点 1** 桶-SFT 不仅仅是重新加权样本；它精确地将监督学习转换为宏桶风险最小化，使得每个桶获得相等的优化质量。证明见 G.1 (https://arxiv.org/html/2606.13227#A7.SS1)。

### 3.3 学习人类分布

接下来我们定义 HDPO 使用的评判目标。对于桶 b，评判器 s_φ(y, b) 应该给那些特征向量保持在桶支持区域 Λ_b 内的回复分配低分数，而给偏离支持区域的回复分配高分数。

令 z 为回复特征向量，J_b(z) 为 z、桶支持和桶特征统计共享的特征索引集合，且 J_b(z) ≠ ∅。对于每个 j∈J_b(z)，设 [l_{bj}, u_{bj}] 为支持区间，并定义归一化尺度 s_{bj} := max{ u_{bj} - l_{bj}, std_{bj}, ε }，ε > 0。

归一化的桶支持距离为：

D_b(z) := (1/|J_b(z)|) Σ_{j∈J_b(z)} ( [l_{bj} - z_j]_+ + [z_j - u_{bj}]_+ ) / s_{bj}    (4)

###### 定理 2 (桶支持距离是人类成员关系的连续松弛)

对于公式 (4) 中的距离，以下成立：
(i) D_b(z) ≥ 0,
(ii) D_b(z) = 0 ⇔ z_j ∈ [l_{bj}, u_{bj}] ∀ j ∈ J_b(z),

PolyAlign: 条件化人类分布对齐

相似文章

大型语言模型的对齐微调：以数据为中心的视角看对齐数据流水线

通过偏好对齐优化增强多语言反事实生成

各向异性模态对齐

基于自监督表示和学习动态规划的多语言词级强制对齐

easyaligner: 支持GPU加速和灵活文本归一化的强制对齐工具（兼容HF Hub上的所有w2v2模型）[P]

提交意见反馈