Embeddings 用于偏好,而非语义

arXiv cs.AI 论文

摘要

本文介绍了一种新的 embedding 模型,旨在捕捉偏好相似性,而不仅仅是语义相似性,从而提高了集体决策系统中的偏好预测能力。

arXiv:2605.08360v1 公告类型:新发布 摘要:现代人工智能正在为集体决策打开大门,参与者可以以自由形式文本表达观点,而不是在固定的一组候选人中进行投票。一个自然的思路是将这些观点嵌入到向量空间中,以便将设施选址问题和公平聚类的大量文献应用于此。但标准的文本 embeddings 衡量的是语义相似性,而设施选址问题和公平聚类中的距离需要所谓的\textit{偏好相似性}:参与者对某段文本的同意程度应与其与该文本的距离成反比。现成的 embeddings 通过语义相似性与偏好相似性之间的相关性继承了一个粗糙的偏好信号,但当这种相关性破裂时,它们无法捕捉偏好。我们将此形式化为一个不变性问题:文本 embedding 模型同时编码了偏好相关信号(立场和价值观)和语义噪声(风格和措辞),且两者在观测上是相关的,因此依赖于噪声的几何结构即使不正确,也可能表现出偏好正确。我们表明,旨在打破这种相关性的合成训练数据可将最优评分器从受噪声主导的余弦相似度显著转移,并在 11 个在线协商数据集中显著改善偏好预测。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:11

# 用于偏好而非语义的嵌入

代码: https://github.com/cartgr/Embeddings-for-Preferences
模型: https://huggingface.co/cartgr/embeddings-for-preferences-st5-xl
来源: https://arxiv.org/html/2605.08360

Carter Blair
哈佛大学
[email protected]

&Ariel D. Procaccia
哈佛大学
[email protected]

&Milind Tambe
哈佛大学
[email protected]

###### 摘要

现代人工智能正为集体决策打开大门,参与者可以以自由文本的形式表达观点,而不是在固定的候选人选中进行投票。一个自然的想法是将这些观点嵌入向量空间,以便利用设施选址问题和公平聚类的大量文献。然而,标准文本嵌入衡量的是语义相似度,而设施选址问题和公平聚类中的距离需要的是我们所说的**偏好相似度**:参与者对一段文本的同意程度应与其在该文本附近的距离成反比。现成的嵌入通过语义相似度与偏好相似度之间的相关性继承了粗略的偏好信号,但当这种相关性断裂时,它们就无法捕捉偏好。我们将此形式化为一个不变性问题:文本嵌入模型编码了与偏好相关的信号(立场和价值观)以及语义噪声(风格和措辞),且这两者在观测上是相关的,因此依赖于噪声的几何结构即使不正确,也可能看起来符合偏好。我们证明,旨在打破这种相关性的合成训练数据,从理论上证明了最优评分器偏离由噪声主导的余弦相似度,并在 11 个在线审议数据集上显著改善了偏好预测。

## 1 引言

许多新兴的集体决策系统允许参与者以自由文本表达偏好,而不是在预定的候选人选中进行投票。例如,两个具有影响力的在线审议平台 Polis 和 Remesh,允许参与者撰写声明并对他人撰写的声明进行投票(Small 等, 2021 (https://arxiv.org/html/2605.08360#bib.bib1))。类似地,在生成式社会选择中,参与者使用自由文本表达偏好,这些偏好随后被聚合为代表声明列表(Fish 等, 2026 (https://arxiv.org/html/2605.08360#bib.bib3))。这些系统的一个共同点是,它们需要方法来对参与者进行分组,并估计参与者对其未投票声明的效用。由于输入是自由文本,一个自然的想法是使用文本嵌入模型嵌入每个参与者的文本。这将允许通过嵌入空间中的聚类对参与者进行分组,并且距离可用于估计参与者对其未投票声明的效用。此外,它还允许应用来自设施选址和公平聚类文献的新颖想法(Feldman 等, 2016 (https://arxiv.org/html/2605.08360#bib.bib52); Chen 等, 2019 (https://arxiv.org/html/2605.08360#bib.bib53); Micha 和 Shah, 2020 (https://arxiv.org/html/2605.08360#bib.bib54); Kellerhals 和 Peters, 2024 (https://arxiv.org/html/2605.08360#bib.bib55))。

然而,现成的文本嵌入模型主要是在语义任务上进行训练和评估的,例如检索、文本相似度和自然语言推理(Muennighoff 等, 2023 (https://arxiv.org/html/2605.08360#bib.bib38))。这些任务倾向于在嵌入空间中将讨论相同主题或回答类似查询的文本放在一起。它们并不一定要求接近的点可以相互认可,或者换句话说,具有偏好相似度。如果要在偏好聚合程序中使用嵌入,理解语义相似度和偏好相似度之间的区别非常重要。为了清楚其重要性,想象一下来自有争议的政治辩论两侧的两句声明是有益的。它们可能具有相同的风格和主题,以及许多相同的词汇,所有这些都可能会被通用文本嵌入模型捕捉到。然而,它们不会相互认可。表 1 (https://arxiv.org/html/2605.08360#S1.T1) 给出了一个例子,其中对声明的微小改变产生了与锚点几乎相同的表面相似度,但显著改变了偏好相似度。标准嵌入模型(ST5-XL)将改变的干扰声明评分为比用不同措辞表达的立场一致替代方案更相似。

表 1:说明语义与偏好相似度不匹配的一个困难三元组。语义干扰项使用锚点的措辞但反转其立场,而偏好匹配项保留立场但改变措辞。基础嵌入模型将干扰项排得更靠近锚点。经过偏好微调且针对特定主题投影的嵌入产生了正确的排序。

我们将语义几何与偏好几何之间的不匹配框定为一个不变性问题(Achille 和 Soatto, 2018 (https://arxiv.org/html/2605.08360#bib.bib29)):偏好几何应对措辞和风格保持不变,且仅对立场和价值观敏感。通用嵌入模型不具备这种不变性,因为它们编码了有利于检索和相似度任务但与同一人是否认可两条陈述无关的主题和风格特征。在自然审议数据上,这种差距部分被掩盖,因为语义相似度和偏好相似度是相关的:持有相同立场的人往往共享相同的措辞。在 §4.1 (https://arxiv.org/html/2605.08360#S4.SS1) 中,我们通过将余弦边际分解为偏好分量和噪声分量,明确指出了这种混淆。余弦对两者赋予同等权重,因此当它们一致时(如在自然数据上)看起来是正确的,但当它们不一致时(如在表 1 (https://arxiv.org/html/2605.08360#S1.T1) 中的困难三元组),噪声占主导地位,余弦失效。

我们的方法源于这一诊断。我们合成由锚点、具有不同措辞的偏好匹配项以及具有高表面重叠但相反立场的语义干扰项组成的三元组。在这些三元组上进行训练迫使余弦降低普通数据中与偏好混淆的噪声变化的权重。我们证明,在这种困难三元组分布下,通过将噪声贡献降低到余弦的单位权重以下,Bradley-Terry 风险严格降低。经验上,我们的方法在困难三元组以及 11 个在线审议数据集上的偏好预测方面显著提高了性能。当可用每主题投票时(这在在线审议平台中很常见),相同的框架提出了一种更简单的方法:学习冻结嵌入的低秩投影。尽管简单,但这种投影嵌入在实践中表现非常好。

总结一下,我们的贡献如下:

1. 我们将语义相似度和偏好相似度之间的不匹配诊断为不变性问题,并通过将余弦边际分解为偏好信号和噪声来形式化它。
2. 我们引入了一种困难三元组合成程序,并证明在其上训练相对于标准余弦严格降低了 Bradley-Terry 风险。
3. 我们在 11 个在线审议数据集上的困难三元组和偏好预测中展示了显著的增益。
4. 我们表明,当可用每主题投票时,冻结嵌入的低秩投影优于完整的偏好微调。

## 2 相关工作

关于自由文本集体决策的大量工作依赖于参与者或声明上的某种几何结构:Polis 从投票矩阵中派生意见地图(Small 等, 2021 (https://arxiv.org/html/2605.08360#bib.bib1)),生成式社会选择在 LLM 定义的特征空间中分组声明以产生代表性列表(Fish 等, 2026 (https://arxiv.org/html/2605.08360#bib.bib3)),Blair 等(2026 (https://arxiv.org/html/2605.08360#bib.bib5))将共识建模为嵌入空间的一个区域,而 De 等(2026 (https://arxiv.org/html/2605.08360#bib.bib30))使用嵌入的余弦相似度作为参与者效用,以审计问题列表中的合理代表性。本文的目标是回答一个前提性问题。即,通用句子嵌入空间中的距离是否反映了偏好相似度?如果不是,能否重新对齐它们以反映偏好相似度?

另一条研究路线针对与意见相关的任务微调句子编码器,包括用于意见挖掘的感知立场嵌入(Ghafouri 等, 2024 (https://arxiv.org/html/2605.08360#bib.bib20))和用于矛盾检索的感知稀疏性嵌入(Xue 等, 2024 (https://arxiv.org/html/2605.08360#bib.bib24))。然而,在 §6 (https://arxiv.org/html/2605.08360#S6) 中我们发现,两者在我们的任务上表现不佳。我们的方法也与 SimCSE(Gao 等, 2021 (https://arxiv.org/html/2605.08360#bib.bib67))有关,后者使用 NLI 蕴含作为正样本,矛盾作为困难负样本。我们的任务不同,我们更进一步,设计了噪声信号故意指向错误方向的三元组(见附录 E.4 (https://arxiv.org/html/2605.08360#A5.SS4) 中的相关消融实验)。扩展的相关工作讨论见附录 A (https://arxiv.org/html/2605.08360#A1)。

## 3 评估设置

在提出我们的诊断和方法之前,我们描述整个过程中使用的评估数据和指标。我们在来自三个审议平台的 11 个数据集上进行评估。生成式社会选择(GSC)(Fish 等, 2026 (https://arxiv.org/html/2605.08360#bib.bib3))提供了调查,参与者在其中撰写自由文本意见,然后对 AI 生成的声明进行评分(两项关于堕胎的调查和一项关于聊天机器人个性化的调查)。Remesh 在三个主题(校园抗议、外国干预、集会权)上对他人开放式回答提供同意/不同意投票。Polis(Small 等, 2021 (https://arxiv.org/html/2605.08360#bib.bib1))在五场对话(西雅图最低工资、鲍灵格林、英国脱欧、加拿大选举改革、全民基本收入)上提供评论级别的同意/不同意投票。一些参与者除了投票外还撰写评论。总体而言,这些涵盖了从简短的 Polis 评论到多段 GSC 意见的文本长度,包括 1,462 名参与者、3,958 条声明和 146 万个成对偏好三元组。数据集详情和 URL 见附录 B (https://arxiv.org/html/2605.08360#A2)。

对于每个参与者,我们构建偏好三元组 $(a, p, n)$,其中 $a$ 是参与者自己撰写的文本(锚点),$p$ 是他们评分更有利的声明,$n$ 是他们评分较不有利的声明。候选模型通过计算相似性边际 $s(a, p) - s(a, n)$ 对每个三元组进行评分;如果该边际为正,则三元组正确。我们称正确排序三元组的分数为*三元组准确率*,当评分器 $s$ 为余弦相似度时为*余弦准确率*。在 §7 (https://arxiv.org/html/2605.08360#S7) 中,我们还评估了理想点评分器,其中 $s$ 是学到的基于距离的效用。

## 4 诊断嵌入模型

我们首先表征现有嵌入模型中的偏好信号。我们介绍了一个形式框架(§4.1 (https://arxiv.org/html/2605.08360#S4.SS1)),证明余弦是理想点效用边际的近似值,提供了自然数据机制下噪声与偏好信号相关性的实证证据(§4.2 (https://arxiv.org/html/2605.08360#S4.SS2)),并诊断了困难三元组失败的原因(§4.3 (https://arxiv.org/html/2605.08360#S4.SS3))。

### 4.1 形式框架

令 $\psi: \mathcal{X} \to \mathbb{R}^d$ 表示产生单位范数嵌入的预训练编码器。在嵌入中,给定主题上的偏好由维度为 $k \ll d$ 的*偏好子空间* $S \subseteq \mathbb{R}^d$ 支配,该子空间承载了与立场相关的结构。令 $P_S$ 表示到 $S$ 的正交投影,$P_{S^\perp}$ 表示到其补空间的投影,并简写 $\psi_S := P_S \psi$, $\psi_\perp := P_{S^\perp} \psi$。每个参与者 $v$ 撰写锚点文本 $a_v$ 并拥有*理想点* $u_v := \psi_S(a_v) \in S$,即其自身嵌入到 $S$ 上的投影。不同参与者有不同的锚点,因此在 $S$ 中有不同的理想点。例如,选择权和支持生命权的用户位于立场轴线的相反区域,同时共享 $S$ 作为相关的变化方向。我们将候选声明 $j$ 的效用建模为参与者理想点在 $S$ 内到该声明的负平方欧几里得距离。^1 下面的推导扩展到 $S$ 上任意正定矩阵 $M$ 的一般马氏距离情况 $-\|\psi_S(a_v) - \psi_S(x_j)\|_M^2$:将 $\sqrt{M}$ 吸收进编码器将其简化为欧几里得情况,没有其他变化。展开平方项,

$$
U^*(v, j) = -\|\psi_S(a_v) - \psi_S(x_j)\|^2 = 2\langle \psi_S(a_v), \psi_S(x_j) \rangle - \|\psi_S(a_v)\|^2 - \|\psi_S(x_j)\|^2.
$$

成对偏好遵循 Bradley-Terry:

$$
\Pr[p \succ n \mid v] = \left(1 + e^{-(U^*(v, p) - U^*(v, n))}\right)^{-1}.
$$

对于锚点内的排名,$\|\psi_S(a_v)\|^2$ 项在所有候选者之间是常数并相互抵消,因此与排名相关的效用边际为

$$
U^*(v, p) - U^*(v, n) = 2\underbrace{\langle \psi_S(a_v), \psi_S(x_p) - \psi_S(x_n) \rangle}_{\Delta_S} + \underbrace{\|\psi_S(x_n)\|^2 - \|\psi_S(x_p)\|^2}_{\Delta_{\text{norm}}}. \tag{1}
$$

第一项 $\Delta_S$ 是锚点和项投影的双线性的,第二项 $\Delta_{\text{norm}}$ 是仅依赖于 $S$ 内候选者范数的项特定二次项。

#### 余弦作为近似值。

现成嵌入模型上的余弦评分器不知道 $S$ 并平等地使用所有 $d$ 个维度。由于 $P_S$ 和 $P_{S^\perp}$ 映射到正交子空间,余弦边际可加性地分解为

$$
s(a_v, p) - s(a_v, n) = \underbrace{\langle \psi_S(a_v), \psi_S(x_p) - \psi_S(x_n) \rangle}_{\Delta_S} + \underbrace{\langle \psi_\perp(a_v), \psi_\perp(x_p) - \psi_\perp(x_n) \rangle}_{\Delta_T}. \tag{2}
$$

比较 (2) 与 (1),余弦捕获了效用边际的双线性部分(最多相差一个因子 2),但完全错过了项范数差 $\Delta_{\text{norm}}$,并贡献了一个没有效用对应物的子空间外噪声 $\Delta_T$。因此,余弦是理想点效用边际的一个近似值,当 $\Delta_{\text{norm}}$ 很小且 $\Delta_T$ 与 $\Delta_S$ 对齐时紧密。在 §7 (https://arxiv.org/html/2605.08360#S7) 中,我们发现实证证据表明该模型很好地描述了真实偏好。图 1 (https://arxiv.org/html/2605.08360#S

相似文章

多智能体协商中基于对手建模的偏好估计

arXiv cs.CL

本文提出了一种新颖的偏好估计方法,将大型语言模型(LLM)的自然语言信息集成到结构化贝叶斯对手建模框架中,用于多智能体协商。该方法利用LLM从话语中提取定性线索,并将其转换为概率格式,在多方协商基准上展示了改进的协议达成率和偏好估计准确性。

代理预设:从语义嵌入到有效的社会测量

arXiv cs.CL

本文批评了自然语言处理(NLP)中的“代理预设”,即错误地将几何嵌入属性与社会构念等同起来。文章提出了结构效度协议(Construct Validity Protocol)和反事实中立化(Counterfactual Neutralization)方法,以确保对源自语义嵌入的社会测量进行严格的验证。

C2:基于二元偏好的可扩展评分增强奖励建模

Hugging Face Daily Papers

C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。