拓扑增强的大语言模型对齐:轨迹拓扑损失与拓扑偏好优化

arXiv cs.CL 论文

摘要

本文介绍了一种用于大语言模型的拓扑增强对齐框架,利用基于持续同调的轨迹拓扑损失和拓扑偏好优化,对隐藏空间中的语义轨迹进行正则化。

arXiv:2605.07172v1 公告类型:新文章 摘要:通过监督微调(SFT)和人类反馈强化学习(RLHF)/直接偏好优化(DPO)对大语言模型(LLM)进行对齐时,通常会忽略表示空间的全局几何结构,而是依赖局部标记似然或标量分数。我们将生成过程视为在隐藏空间中描绘一条语义轨迹,并提出一种拓扑增强对齐框架,利用0维持续同调对这些轨迹进行正则化。首先,对于SFT,我们引入了轨迹拓扑损失(TTL)。我们将提示词和金标准答案的嵌入视为混合点云,使用0维持续同调算法提取“提示词-答案桥梁”。TTL将模型的实际更新方向与这些拓扑桥梁对齐,而不是与任意方向对齐。其次,对于DPO,我们提出了拓扑偏好优化(TPO)。TPO构建特定主题的语义偏好向量,并在中间隐藏层中将被拒绝响应与被选响应之间的改进方向与这些向量对齐。我们还引入了一种动态加权方案来平衡DPO和TPO损失。在UltraChat和Anthropic HH-RLHF数据集上对Qwen2.5-7B-Instruct进行评估,我们的拓扑增强目标在自动偏好指标和LLM法官评估中,一致优于强非拓扑基线(例如,逐样本、最近邻、随机正则化器),同时保持或改善了毒性水平。结果表明,持续同调和轨迹几何为可控对齐提供了一个有前景的方向。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:53

# 拓扑增强的大型语言模型对齐:轨迹拓扑损失与拓扑偏好优化
来源:https://arxiv.org/html/2605.07172
潘郁瑞1 许珂2 彭波3
1 复旦大学计算机与智能创新学院
2 同济大学经济管理学院
3 上海海洋大学信息技术学院
[email protected], [email protected], [email protected]

###### 摘要
大型语言模型(LLMs)的对齐通常依赖于监督微调(SFT)和基于人类反馈的强化学习(RLHF),或者最近提出的直接偏好优化(DPO)。然而,现有的目标函数 largely 忽略了表示空间的全球几何结构和拓扑特性:它们作用于局部 token 级别的似然概率或标量偏好分数,并没有显式地约束隐藏状态如何从用户提示移动到答案。我们将生成过程视为在隐藏空间中追踪一条*语义轨迹*,并提出了一种拓扑增强对齐框架,利用0维持久同调(0-dimensional persistent homology)对这些轨迹进行正则化。首先,在 SFT 阶段,我们引入了**轨迹拓扑损失(Trajectory Topology Loss, TTL)**。对于每个批次,我们将提示和标准答案的平均池化嵌入视为混合点云,运行基于并查集的0维持久同调算法,并提取连接先前不连通分量的“提示-答案桥接”边。TTL 鼓励模型从提示到答案的实际更新方向与这些拓扑导出的桥接边对齐,而不是与任意或逐样本的方向对齐。其次,在 RLHF/DPO 阶段,我们提出了**拓扑偏好优化(Topological Preference Optimization, TPO)**。TPO 从离线流水线构建特定主题的语义偏好向量,并使拒绝响应和首选响应之间的语义改进方向与这些向量在中间隐藏层中对齐。我们进一步引入了一种基于指数移动平均(EMA)的动态加权方案来平衡 DPO 和 TPO 损失,并探索了一种完全拓扑的变体,该变体在首选/拒绝嵌入云上应用持久同调。我们在 Qwen2.5-7B-Instruct 上实例化我们的方法,并在 UltraChat 和 Anthropic HH-RLHF 上进行评估。在 SFT 和 DPO 训练中,拓扑增强目标在自动偏好指标和 LLM 裁判评估中 consistently 优于强大的非拓扑基线(包括逐样本、最近邻和随机方向正则化器),同时保持或略微改善毒性。这些结果表明,结合持久同调和轨迹几何结构是朝着更可控的 LLM 对齐方向迈出的有前景且实用的步骤。

## 1 引言

**图1说明**:传统对齐与我们在隐藏空间中的拓扑增强对齐的概念比较。左:传统对齐在提示和答案嵌入上优化局部、成对的损失,而不显式建模全局结构。右:我们的拓扑增强视图将提示和答案视为联合点云,通过0维持久同调提取跨流形桥接,并正则化模型轨迹以遵循这些桥接。

大型语言模型(LLMs)在广泛的任务中取得了令人印象深刻的性能,包括开放域对话、代码生成和复杂推理 [Brown et al. (2020)](https://arxiv.org/html/2605.07172#bib.bib7); [Vaswani et al. (2017)](https://arxiv.org/html/2605.07172#bib.bib30)。尽管取得了这些进展,使 LLM 的行为与人类价值观和偏好保持一致仍然是一个核心挑战。主流范式结合了指令遵循数据上的*监督微调*(SFT)和*基于人类反馈的强化学习*(RLHF)[Ouyang et al. (2022)](https://arxiv.org/html/2605.07172#bib.bib22); [Bai et al. (2022)](https://arxiv.org/html/2605.07172#bib.bib3); [Christiano et al. (2017)](https://arxiv.org/html/2605.07172#bib.bib10); [Stiennon et al. (2020)](https://arxiv.org/html/2605.07172#bib.bib28),或者最近的直接偏好优化(DPO)方法 [Rafailov et al. (2024)](https://arxiv.org/html/2605.07172#bib.bib24)。

虽然 SFT 和 RLHF/DPO 在实践中被证明非常有效,但它们共享一个关键局限性:它们 largely 忽略了内部表示空间的*几何*和*拓扑*。标准目标关注局部信号——SFT 中的 token 级别似然概率,或 RLHF 中的标量偏好分数——并不直接监督模型隐藏状态如何从用户提示移动到最终答案。然而,LLM 的响应生成过程可以自然地被视为在其隐藏空间中追踪一条*轨迹*:从提示的表示开始,模型在生成答案的每个 token 时迭代更新其内部状态。不同的答案(例如,有帮助 vs. 无帮助,安全 vs. 不安全)对应于不同的轨迹。如果我们能够塑造这些轨迹以遵循语义上有意义的方向——例如,从提示状态向高质量答案流形移动——我们可能会获得更鲁棒且可解释的对齐行为。

与此同时,拓扑数据分析(TDA)领域使用持久同调等工具研究数据流形的形状 [Edelsbrunner and Harer (2010)](https://arxiv.org/html/2605.07172#bib.bib12); [Carlsson (2009)](https://arxiv.org/html/2605.07172#bib.bib9); [Ghrist (2008)](https://arxiv.org/html/2605.07172#bib.bib15)。给定一个点云和距离度量,持久同调追踪连通分量和高维特征如何在不同尺度下出现和合并。即使在最简单的0维同调情况下,产生的“死亡边”揭示了不同点簇如何连接,提供了数据的多尺度骨架。在欧几里得空间中,这些0维死亡边与最小生成森林的边重合;我们使用持久同调的观点是因为它自然地突出了跨标签合并事件,即提示和答案分量在不同尺度下首次变得连通的时刻。

本文将这两种视角结合起来。我们要问:
> *我们能否利用隐藏表示的拓扑信息来正则化 LLM 对齐,通过在隐藏空间中显式约束语义轨迹?*

我们通过提出一个统一的、拓扑增强的对齐框架来肯定地回答这个问题,该框架包含两个组成部分:

- 在**SFT 阶段**,我们引入了**轨迹拓扑损失(TTL)**。对于每个批次,我们将提示和标准答案的平均池化嵌入视为混合点云。使用通过并查集结构实现的0维持久同调算法 [Tarjan (1975)](https://arxiv.org/html/2605.07172#bib.bib29),我们识别“提示-答案桥接”:连接先前分离的连通分量的边。我们将这些桥接视为从提示向标准答案流形的拓扑知情轨迹,并正则化模型,使其从提示到模型答案的实际更新方向与这些桥接对齐。
- 在**RLHF/DPO 阶段**,我们提出了**拓扑偏好优化(TPO)**,它将拒绝响应和首选响应之间的语义改进方向与由离线流水线构建的特定主题偏好向量对齐。我们进一步引入了一种基于指数移动平均(EMA)的动态加权方案来平衡 DPO 和 TPO 损失,并探索了一种在首选/拒绝云上使用持久同调的全拓扑 TPO 变体。

我们在 Qwen2.5-7B-Instruct 上实例化我们的方法,并在 SFT 的 UltraChat [Ding et al. (2023)](https://arxiv.org/html/2605.07172#bib.bib11) 和 DPO 的 Anthropic HH-RLHF [Bai et al. (2022)](https://arxiv.org/html/2605.07172#bib.bib3) 上进行评估。我们的实证发现如下:

- 带有 TTL 的拓扑增强 SFT 与强大的 SFT 基线相比,在奖励模型得分和 LLM 裁判有帮助性评级方面带来了一致的改进,毒性增加可忽略不计。
- 在 DPO 之上的 TPO 比纯 DPO 提供了更高的偏好胜率以及更好的有帮助性/无害性权衡,适用于不同的隐藏层和聚类粒度。
- 消融实验证实 (i) 持久同调衍生的桥接优于随机、逐样本和最近邻提示-答案配对,且 (ii) 主题感知偏好向量和动态加权对于 TPO 的有效性都至关重要。

总体而言,我们的结果表明,即使是简单的0维拓扑信息也可以为对齐期间隐藏空间轨迹的正则化提供有用的结构。

#### 贡献。
本文做出了以下贡献:

- 我们提出了 LLM 对齐的*以轨迹为中心*的观点,其中从提示表示到答案表示的更新被视为隐藏空间中的显式语义轨迹,而不仅仅是通过 token 级别似然概率或标量奖励进行监督。
- 我们为 SFT 引入了**轨迹拓扑损失(TTL)**,它在混合提示/标准答案点云上使用0维持久同调来提取一组稀疏的拓扑“桥接”。TTL 正则化模型,使其提示到答案的轨迹与这些桥接对齐,我们表明这优于非拓扑基线,如逐样本、随机和基于 kNN 的方向正则化。
- 我们为 DPO 阶段提出了**拓扑偏好优化(TPO)**,它将拒绝和首选响应之间的隐藏空间改进方向与从离线聚类和模板流水线衍生的主题感知语义偏好向量对齐。我们进一步引入了一种基于 EMA 的动态加权方案和一种在首选/拒绝嵌入云上的完全拓扑 TPO 变体。
- 我们在 Qwen2.5-7B-Instruct 上进行了实证研究,使用 UltraChat 和 HH-RLHF,展示了在奖励模型得分、偏好胜率以及有帮助性/无害性指标上 consistently 超越强大的 SFT 和 DPO 基线,且训练开销适中。

**图2说明**:我们拓扑增强对齐框架的概述。左侧部分显示了带有轨迹拓扑损失(TTL)的 SFT,它在提示和标准答案嵌入之间的拓扑衍生桥接上添加了余弦损失。右侧部分显示了带有拓扑偏好优化(TPO)的 DPO,它将拒绝到首选的隐藏状态差异与特定主题的偏好向量对齐。

每个死亡边对应于一个连通分量在合并到较老分量时的“死亡”。 collectively,这些边形成了一个树结构,捕捉了随着距离阈值的增加,点云的初始分离区域如何变得连通 [Carlsson (2009)](https://arxiv.org/html/2605.07172#bib.bib9)。在我们的设置中,我们利用这种结构来识别不同语义类别(例如,提示 vs. 答案,拒绝 vs. 首选)点之间的*桥接*。这些桥接提供了由批次的全局几何和拓扑信息而非任意或局部选择告知的表示空间方向。直观地说,这些桥接识别了当我们从局部邻域移动到更全局的结构时,提示流形和答案流形首次“接触”的地方。 collectively,它们形成了一个稀疏的全局骨架,抽象掉了许多嘈杂的局部连接,并为轨迹正则化产生了更稳定的方向。

## 2 相关工作

#### 大型语言模型的对齐
RLHF [Ouyang et al. (2022)](https://arxiv.org/html/2605.07172#bib.bib22); [Bai et al. (2022)](https://arxiv.org/html/2605.07172#bib.bib3); [Christiano et al. (2017)](https://arxiv.org/html/2605.07172#bib.bib10); [Stiennon et al. (2020)](https://arxiv.org/html/2605.07172#bib.bib28) 和 DPO [Rafailov et al. (2024)](https://arxiv.org/html/2605.07172#bib.bib24) 等对齐方法已成为控制 LLM 行为的标准。后续工作探讨了奖励建模、离策略优化和偏好数据策划中的变化 [Rafailov et al. (2024)](https://arxiv.org/html/2605.07172#bib.bib24); [Bai et al. (2022)](https://arxiv.org/html/2605.07172#bib.bib3)。我们的工作与此正交:我们专注于将几何和拓扑约束纳入现有流水线。这些模型中偏好排序的基础往往追溯到 Bradley-Terry [Bradley and Terry (1952)](https://arxiv.org/html/2605.07172#bib.bib6) 或 Plackett-Luce [Plackett (1975)](https://arxiv.org/html/2605.07172#bib.bib23) 等统计模型。

#### 深度学习中的表示几何
越来越多的工作研究神经表示的几何结构,包括流形结构、各向异性 [Ethayarajh (2019)](https://arxiv.org/html/2605.07172#bib.bib13); [Ortiz-Jiménez et al. (2020)](https://arxiv.org/html/2605.07172#bib.bib21),以及概念的线性探针 [Bau et al. (2017)](https://arxiv.org/html/2605.07172#bib.bib5)。一些方法利用表示几何进行课程学习或分布外检测 [Hendrycks and Gimpel (2017)](https://arxiv.org/html/2605.07172#bib.bib16); [Lee et al. (2018)](https://arxiv.org/html/2605.07172#bib.bib19)。其他工作分析表示的表达力和解耦能力 [Raghu et al. (2017)](https://arxiv.org/html/2605.07172#bib.bib25); [Achille and Soatto (2018)](https://arxiv.org/html/2605.07172#bib.bib1)。我们通过将隐藏空间轨迹本身视为受拓扑结构信息的正则化对象来补充这一系列工作。

#### 神经网络中的拓扑数据分析
TDA 已被用于分析深度网络中特征空间和决策边界的形状 [Rieck et al. (2019)](https://arxiv.org/html/2605.07172#bib.bib27); [Ballester et al. (2024)](https://arxiv.org/html/2605.07172#bib.bib4),并设计用于鲁棒性的正则化器 [Adams et al. (2015)](https://arxiv.org/html/2605.07172#bib.bib2); [Bubenik (2015)](https://arxiv.org/html/2605.07172#bib.bib8); [Hofer et al. (2019)](https://arxiv.org/html/2605.07172#bib.bib17)。其理论基础依赖于持久同调和条形码 [Ghrist (2008)](https://arxiv.org/html/2605.07172#bib.bib15); [Edelsbrunner and Harer (2010)](https://arxiv.org/html/2605.07172#bib.bib12)。然而,在大规模序列模型和 LLM 对齐中的应用仍然有限。据我们所知,我们是第一个在 SFT 和 RLHF 阶段明确使用0维持久同调作为 LLM 对齐训练信号的人。

## 3 方法

我们提出了一种拓扑增强对齐框架,在 SFT 和 DPO 阶段正则化隐藏空间轨迹(图2 [https://arxiv.org/html/2605.07172#S1.F2](https://arxiv.org/html/2605.07172#S1.F2))。在 SFT 时,轨迹拓扑损失(TTL)塑造隐藏状态如何从提示移动到答案。在 DPO 时,拓扑偏好优化(TPO)塑造隐藏状态如何沿特定主题偏好方向从拒绝响应移动到首选响应。

### 3.1 符号

令 $f_\theta$ 表示参数为 $\theta$ 的 LLM。对于输入序列 $x=(x_1, \dots, x_n)$ 和注意力掩码 $m \in \{0,1\}^n$,第 $l$ 层产生隐藏状态 $H^{(l)} \in \mathbb{R}^{n \times d}$,我们对非填充 token 进行平均池化:
$$ h^{(l)}(x) = \frac{\sum_i

相似文章

大语言模型中词汇对齐与偏好阶段转变的全自动识别

arXiv cs.CL

本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。