Spectral Souping:在线偏好对齐的统一框架
摘要
本文介绍了Spectral Souping,这是一种通过发现通用谱表示来高效对齐LLM与个体用户偏好的框架,该表示能在推理时合并专门策略,无需昂贵的重新训练。
arXiv:2605.20408v1 公告类型:新论文
摘要:基于人类反馈的强化学习(RLHF)能有效将大型语言模型(LLM)与整体人类偏好对齐,但通常无法满足个体用户多样且相互冲突的需求。为解决此问题,我们提出了Spectral Souping,一个高效的在线偏好对齐统一框架。我们的贡献在于发现了LLM中的通用谱表示,该表示被证明非常适合模型合并。这一理论洞察使我们能够采用两阶段方法:首先离线学习一组专门策略基,每个基专注于一个不同的细粒度偏好维度。然后在线自适应算法在推理时通过合并这些策略的输出或参数来高效地“汤”合它们,从而无需针对定制偏好奖励进行昂贵的在线重训练即可实现快速模型适应。在在线偏好对齐基准上的实验表明,我们的方法在性能上显著优于现有最先进方法,为动态适应个体用户偏好提供了一种可扩展且计算高效的解决方案。
查看缓存全文
缓存时间: 2026/05/21 06:25
# Spectral Souping: A Unified Framework for Online Preference Alignment
Source: https://arxiv.org/html/2605.20408
\\correspondingauthor
yinlamchow@google\.com\\reportnumber0001
Guy TennenholtzGoogle ResearchTed YunGoogle DeepMindJames HarrisonGoogle DeepMindArthur GrettonGoogle DeepMindAndre BarretoGoogle DeepMindBo DaiGoogle DeepMind
###### 摘要
基于人类反馈的强化学习(RLHF)能有效对齐大型语言模型(LLMs)与聚合的人类偏好,但常常无法满足个体用户多样且冲突的需求。为解决此问题,我们提出*Spectral Souping*,一个统一的高效在线偏好对齐框架。我们的核心贡献是发现了LLM中存在一种通用频谱表示,该表示被证明非常适合模型合并。这一理论洞察使我们能够采用一种两阶段方法:首先离线学习一组基础策略,每个策略专注于一个独特的细粒度偏好维度;然后一个在线自适应算法在推理时通过合并这些策略的输出或参数来高效地“混合”它们,从而实现在无需针对个性化偏好奖励进行昂贵的在线重新训练的情况下快速模型自适应。在在线偏好对齐基准上的实验表明,我们的方法相比现有最先进的方法取得了显著性能提升,为动态适应LLM到个体用户偏好提供了一种可扩展且计算高效的解决方案。
###### 关键词:
个性化, 偏好对齐, 模型混合, LLM在线自适应, RLHF
## 1 引言
近年来的LLM进展通过RLHF\[ouyang2022training\]和直接偏好优化(DPO)\[rafailov2023direct\]等技术在人类偏好对齐方面取得了显著成功。然而,这些依赖聚合反馈统一奖励的方法面临重大限制。核心问题在于一刀切的方法未能考虑个体用户(因其背景和上下文差异)多样且往往冲突的需求。这种通用偏好与专门偏好之间的差距凸显了一个关键挑战:如何在不承担为每个用户微调单独模型所需的大量数据收集和计算成本的情况下,将LLM与个体偏好对齐。
我们的工作引入了*Spectral Souping*,一个新颖的在线个性化LLM偏好对齐框架,克服了这些限制。与需要单独且昂贵微调的传统方法不同,我们的方法能以高效方式处理多样且变化的用户偏好。我们的核心贡献在于发现了语言马尔可夫决策过程(MDP)背景下的一种(通用)频谱表示,其中LLM策略最大化用户偏好驱动的奖励。这一观察表明,各种个性化LLM策略的logits并非存在于任意空间中,而是存在于由MDP频谱特征定义的结构化潜空间中,这意味着这些logits可以表示为少量基础logit函数(每个对应于与某一独特偏好维度对齐的策略)的线性组合。
这一理论洞察支撑了我们两阶段的LLM自适应方法。一个离线阶段训练上述基础策略集。在线阶段则在推理时动态组合这些基础策略以生成针对用户偏好的响应,从而避免了昂贵的逐用户微调。由此产生的框架高度可扩展,能在在线偏好对齐基准上取得最先进性能。关键的是,我们对统一频谱表示的发现使得能够推导出这种策略混合方法的可证明次优性界——这是一个相较于先前主要基于启发式方法且缺乏此类形式保证的技术的重要进展。特别地,我们证明我们的频谱混合方法能达到与完全微调的“定制”策略任意接近的性能,从而以严格的理论基础补充了其实证有效性。
本文其余部分组织如下。第2节(https://arxiv.org/html/2605.20408#S2)提供了语言MDP、RLHF以及在线偏好对齐问题的背景。第3节(https://arxiv.org/html/2605.20408#S3)详细介绍了我们对频谱表示及其与LLM偏好对齐相关属性的理论发现。第4节(https://arxiv.org/html/2605.20408#S4)阐述了我们两阶段的方法,包括基础策略的离线训练和在线混合算法。第5节(https://arxiv.org/html/2605.20408#S5)描述了我们的实验设置并展示了结果,证明了频谱混合的有效性。最后,第6节(https://arxiv.org/html/2605.20408#S6)概述了LLM自适应的相关工作,第7节(https://arxiv.org/html/2605.20408#S7)总结我们的工作并讨论未来方向。
## 2 预备知识
我们首先提供语言建模的基本MDP术语,并定义在线偏好对齐的问题形式。
### 2.1 语言MDP及针对个体偏好的RLHF
使用LLM自回归生成令牌序列的上下文可以建模为一个MDP,其中时间步\(t\)的状态\(s_t\)是迄今为止生成的令牌序列,\(s_t = (a_0, a_1, \dots, a_{t-1})\),时间步\(t\)的动作\(a_t\)是下一步要生成的令牌,从有限词汇表\(\mathcal{A}\)中选择。状态转移是确定性的,即给定状态\(s_t\)和动作\(a_t\),下一状态仅仅是它们的拼接:\(s_{t+1} = \text{concat}(s_t, a_t)\),而策略\(\pi(a_t|s_t)\)是我们旨在优化的条件LLM。它表示在给定前述序列\(s_t\)的情况下生成令牌\(a_t\)的概率。目标是找到一个最优策略\(\pi\),解决以下最大熵(软)强化学习问题:
\[
\max_{\pi} \mathbb{E}_{\pi} \left[ \sum_{t=0}^{T-1} r(s_t, a_t) - \beta D_{KL}(\pi(\cdot|s_t) \| \pi_{\text{ref}}(\cdot|s_t)) \right],
\tag{1}
\]
其中\(r(s_t, a_t)\)是一个奖励函数,用于对在序列\(s_t\)后生成令牌\(a_t\)的质量进行评分。这可以基于人类偏好反馈或其他质量指标,\(\pi_{\text{ref}}\)是一个参考LLM,而\(D_{KL}(\pi \| \pi_{\text{ref}}) = \sum_{a \in \mathcal{A}} \pi(a|s) \log \frac{\pi(a|s)}{\pi_{\text{ref}}(a|s)}\)是Kullback-Leibler (KL)散度,用于惩罚策略\(\pi\)偏离参考模型\(\pi_{\text{ref}}\)过远,其中温度参数\(\beta > 0\)控制正则化的强度。
给定确定性转移\(s' = (s, a)\),以及转移在最终时间步\(T\)终止的事实,此最大熵强化学习问题的唯一不动点解定义了最优策略\(\pi^*\),使用最优Q值函数\(Q(s, a)\)(满足软贝尔曼备份)和充当归一化因子的最优值函数\(V(s)\)\[nachum2017bridging\]:
\[
\pi^*(a|s) = \pi_{\text{ref}}(a|s) \exp\left( \frac{Q(s, a) - V(s)}{\beta} \right), \quad \forall s, a,
\tag{2}
\]
\[
Q(s, a) = r(s, a) + V(s'),
\tag{3}
\]
\[
V(s) = \beta \log \sum_{a \in A} \pi_{\text{ref}}(a|s) \exp\left( \frac{Q(s, a)}{\beta} \right),
\tag{4}
\]
其中(3)中的贝尔曼备份对应于确定性转移。这表明最优策略的logits是通过将最优Q值加到参考策略的logits上得到的。
### 2.2 作为多目标MDP的在线偏好对齐
将LLM适应于多样且往往冲突的用户偏好呈现出一个复杂的多目标优化挑战。与标准RLHF(将LLM生成过程视为具有单一奖励的MDP)不同,在在线偏好对齐中,为了表示一组不同的用户偏好(如简洁性或事实准确性),人们考虑一个*多目标MDP*,其中包含一个偏好奖励向量\(\mathbf{r}(s, a) = (r_1(s, a), \ldots, r_K(s, a)) \in \mathbb{R}^K\),其中\(K\)个分量分别对应一个偏好维度。假设对任意新用户,其偏好可以建模为这些多方面偏好属性的线性组合,即\(r_{\mathbf{w}} = \sum_{k=1}^{K} w_k r_k\),对应特定于用户的偏好向量\(\mathbf{w} = (w_1, \ldots, w_K) \in \Delta^K\),位于\(K\)维单纯形中,表征用户对相应基础奖励所赋予的潜在重要性。那么学习定制化LLM的典型方法是通过RLHF\[kirk2023personalisation,das2024active\],即
\[
\max_{\pi} \mathbb{E}_{\pi} \left[ \sum_{t=0}^{T-1} r_{\mathbf{w}}(s_t, a_t) - \beta D_{KL}(\pi(\cdot|s_t) \| \pi_{\text{ref}}(\cdot|s_t)) \right],
\]
该式从特定奖励模型\(r_{\mathbf{w}}\)的反馈信号优化策略\(\pi_{\mathbf{w}}^*\)。然而,通常情况下,该偏好向量\(\mathbf{w}\)在在线交互之前不会透露给智能体。在并行训练对应定制化策略时通过RLHF估计此向量可能具有挑战性(例如,除了策略优化外,可能还需要先进的探索策略来在RL过程中揭示此类用户偏好),尤其是当此过程仅运行有限步数(例如在线自适应期间)时。或者,为每个可能的偏好向量\(\mathbf{w}\)训练一个上下文智能体在计算上也很昂贵,对大多数实际应用不现实。
## 3 在线偏好对齐的频谱表示
本节研究第2.1节引入的语言MDP类中最优值函数的参数化。给定参考LLM表示\(\psi(s) \in \mathbb{R}^d\),其中参考策略可表示为\(\pi_{\text{ref}}(a|s) = \exp(\psi(s)^\top \nu_{\text{ref}}(a)) / \int_{b \in A} \exp(\psi(s)^\top \nu_{\text{ref}}(b)) db\),并带有相应的动作令牌嵌入\(\nu_{\text{ref}}(a) \in \mathbb{R}^d\),我们的主要目标是识别条件,使得该参考LLM特征也能成为允许公式(3)中定义的最优Q函数进行线性参数化的*频谱表示*。为便于分析最优Q函数的频谱表示,我们引入两个技术假设,为分析提供实用框架:
###### 假设1(线性奖励表示)
给定参考LLM派生的足够表达性的特征\(\psi\),语言MDP的任何奖励函数都可以由这些特征线性表示:
\[
r(s, a) = \psi((s, a))^\top \nu_{\text{r}}, \quad \text{对于某个权重向量 } \nu_{\text{r}}.
\tag{5}
\]
###### 假设2(\(L\)步可解码性)
参考LLM诱导的语言MDP对于某个整数\(L > 0\)是\(L\)步可解码的,其轨迹分布仅取决于最近的\(L\)步历史,即\(h\)步轨迹\(\tau_h\)的分布仅以子序列\(\tau_{h-L+1:h} = (s_{h-L+1}, a_{h-L+1}, \dots, s_h)\)为条件。
线性奖励假设由参考LLM强大的表示能力所证实。虽然真实奖励动态可能任意复杂,但LLM生成的特征\(\psi(s)\)足够丰富以表示底层语义,使得奖励本身可以建模为简单的线性函数。\(L\)步可解码性假设源于基于Transformer的参考策略的架构。这些模型在固定长度的上下文窗口上运行,意味着其输出仅以最近的\(L\)个令牌为条件。利用这些使模型符合LLM实际计算约束的条件,我们首先给出了描述任意满足假设1的奖励函数的最优Q函数的主要技术结果。
###### 引理1
对于任何满足假设1和假设2的语言MDP,其公式(3)中的最优Q函数可以用参考LLM logit特征\(\psi\)进行线性参数化,即存在依赖于温度\(\beta\)、奖励\(r\)和参考LLM \(\pi_{\text{ref}}\)的向量\(\nu_{\beta, r, \text{ref}} \in \mathbb{R}^d\),使得对所有\(s, a\)有
\[
Q^*(s, a) = \psi((s, a))^\top \nu_{\beta, r, \text{ref}}.
\tag{6}
\]
引理1揭示了语言MDP的一个非平凡且关键的性质:参考LLM的logit特征\(\psi\)充当通用的*频谱表示*。该表示允许任何偏好驱动奖励下的最优Q函数被线性参数化。因此,对于一组\(K\)个不同的偏好属性\(\{r_1(s, a), \ldots, r_K(s, a)\}\),其对应的最优Q函数\(\{Q_1^*(s, a), \ldots, Q_K^*(s, a)\}\)都可以表示为\(Q_k^*(s, a) = \psi((s, a))^\top \nu_k\),其中每个\(\nu_k \in \mathbb{R}^d\)是频谱空间中的一个向量。这一洞察直接启发了我们的*Spectral Soup*策略架构。该模型使用一个共享的LLM特征提取器生成\(\psi\),同时在输出logit层集成多个轻量级适配器,每个适配器专门学习一个基础Q函数\(Q_k^*\)。然后,通过使用混合向量\(\lambda = (\lambda_1, \ldots, \lambda_K) \in \mathbb{R}^K\)线性组合这些Q函数,构建一个混合策略\(\tilde{\pi}_\lambda\):
\[
\tilde{\pi}_\lambda(a|s) \propto \pi_{\text{ref}}(a|s) \cdot \exp\left( \sum_{k=1}^K \lambda_k Q_k^*(s, a) / \beta' \right), \quad \beta \sum_k |\lambda_k| \leq \beta'.
\]相似文章
WildFeedback: 通过原位用户交互和反馈对齐大语言模型
WildFeedback是一个新颖的框架,它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集,用于将语言模型与人类偏好对齐,解决了传统基于标注的对齐方法中的可扩展性和偏差问题。
隔离LLM词汇偏见:一种无需人工筛选的三角测量偏好阶段学习指标
介绍了一种无需人工筛选的指标(Triangulated Preference Shift),用于隔离和量化LLM在偏好学习过程中诱导的词汇偏见,无需手动筛选,覆盖六个模型家族。
大语言模型中词汇对齐与偏好阶段转变的全自动识别
本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。
奖励模型中的偏好不稳定性:通过稀疏自编码器进行检测与缓解
本文研究了大型语言模型奖励模型中的偏好不稳定性,即微小的输入变化会导致矛盾的偏好分配。作者提出了两种基于SAE的缓解策略——SAE特征引导和SAE残差校正——在不重新训练的情况下减少错误的偏好分配。
FSPO:少样本合成偏好优化实现面向真实用户的个性化
FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。