代理预设：从语义嵌入到有效的社会测量

arXiv cs.CL 2026/05/11 04:00 论文

摘要

本文批评了自然语言处理（NLP）中的“代理预设”，即错误地将几何嵌入属性与社会构念等同起来。文章提出了结构效度协议（Construct Validity Protocol）和反事实中立化（Counterfactual Neutralization）方法，以确保对源自语义嵌入的社会测量进行严格的验证。

arXiv:2605.07409v1 宣布类型：新论文摘要：自然语言处理正在迅速发展成为计算社会科学的主要工具，研究人员越来越多地使用嵌入来衡量潜在构念，如新颖性、创造力和偏见。然而，这一转变面临一个根本性的效度挑战：“代理预设”，即依赖几何属性（例如余弦距离）作为社会概念的直接测量指标。我们认为，如果没有明确的验证，无监督表示仍然是目标构念（$C$）与混杂属性（$Z$，如主题、风格和作者身份）的纠缠混合物。为了弥合语义嵌入与有效社会测量之间的差距，我们引入了结构效度协议（CVP）。借鉴因果表示学习和心理测量学，CVP 提供了一条从概念化到定量验证的严格流程。我们进一步提出了一种新颖的方法——反事实中立化，利用大语言模型（LLM）来减少嵌入空间中的混杂因素。通过提供一套标准化的效度测试套件——包括区分效度、增量效度和预测效度测试——本研究为社区提供了一套工具包，将启发式代理转化为稳健且经得起科学检验的测量工具。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:02

# 代理预设：从语义嵌入到有效的社会测量指标
来源: https://arxiv.org/html/2605.07409

###### 摘要

自然语言处理（NLP）正迅速演变为计算社会科学（Computational Social Science, CSS）的主要工具，研究人员越来越多地使用嵌入（embeddings）来测量诸如新颖性、创造力和偏见等潜在构念。然而，这一转变面临一个根本性的效度挑战：“代理预设”（Proxy Presumption），即依赖几何属性（如余弦距离）作为社会概念的直接度量。我们认为，如果没有明确的验证，无监督表示仍然是目标构念（$C$）与混淆属性（$Z$，如主题、风格和作者身份）的纠缠混合物。为了弥合语义嵌入与有效社会度量之间的差距，我们引入了构念效度协议（Construct Validity Protocol, CVP）。CVP借鉴了因果表示学习和心理测量的理论，提供了一条从概念化到定量验证的严格流程。此外，我们提出了一种新颖的方法——反事实中和（Counterfactual Neutralization），利用大语言模型（LLM）来减少嵌入空间中的混淆因素。通过提供一套标准化的效度测试套件（包括区分效度、增量效度和预测效度测试），本研究为社区提供了一套工具，将启发式代理转化为 robust 且科学上可辩护的测量仪器。

## 1 引言

当代自然语言处理（NLP）的核心雄心已超越预测下一个 token；我们越来越多地被要求测量社会世界。最近的文献开创了抽象社会构念的量化方法，为新颖性、创造力和偏见等概念提出了计算指标（Merrill 等，2024; Lee 等，2024; Bang 等，2024）。这一转变标志着关键时刻：NLP 正从一门工程学科演变为计算社会科学的主要测量仪器。

然而，这一雄心引入了一个方法论挑战：**理论构念**（我们打算测量的内容）与**计算代理**（我们实现的内容）之间的差距。在缺乏潜在社会变量的既定“地面真值”的情况下，该领域面临着我们要称为**代理预设**的风险：一种便捷的几何属性——通常是嵌入空间中的余弦相似度——在缺乏充分验证的情况下被重命名为理论构念（Caliskan 等，2017; May 等，2019; Bolukbasi 等，2016; Garg 等，2018; Kozlowski 等，2019）。

我们强调，这不是孤立的错误，而是大量具有影响力的 NLP/ML 测量工作中反复出现的模式，同时承认不同论文在验证其代理的严谨性方面存在有意义的差异。虽然向量距离捕捉了语义分歧，但将其直接等同于“创新”或“创造力”，假设嵌入空间几何与社会现实之间存在强烈的同构关系，而这种关系可能并不成立。虽然测量效度是机器学习中的一个普遍问题，但代理预设在 NLP 中尤为尖锐，因为文本是计算社会科学的初级非结构化介质，且文本中的主要干扰维度（$Z$）本质上是语言性的（语域、方言、语用、风格）。此外，许多可以减少混淆的干预措施是文本原生的，包括反事实重写和语言感知去偏方法（Elazar 和 Goldberg, 2018; Ravfogel 等，2020; Blodgett 等，2020; Sap 等，2019）。

本文认为，这种“通过重命名进行的测量”可以形式化为一个**不可识别性问题**：无监督嵌入将多个生成因子压缩到单一表示中，将目标构念（$C$）与诸如主题、作者风格、语域或长度等干扰属性（$Z$）纠缠在一起（Locatello 等，2019; Schölkopf 等，2021）。如果没有明确的解耦或基于设计来控制，标准指标可能主要捕捉方法方差，而非预期的社会现象（Zhou 等，2022）。例如，高的余弦距离可能反映真正的概念断裂，也可能仅仅反映词汇量的变化。即使实现了完美的解耦，当前做法仍遭受**误设问题**：用于表示新概念的函数（如余弦相似度）可能不是最能代表 $C$ 与文档之间功能关系的函数，尤其是在排除混淆协变量 $Z$ 的影响后。

为了应对这一挑战并支持 CSS 的成熟，我们引入了**构念效度协议（CVP）**。改编自心理测量学和因果表示学习的标准（Bengio 等，2013; Locatello 等，2019; Schölkopf 等，2021），CVP 为验证 NLP 中的社会变量提供了路线图。我们的贡献有四点：

1.  **一个不可识别性结果**：我们形式化地说明了为什么在无显式假设或干预的情况下，无监督指标无法可靠地恢复潜在构念（Locatello 等，2019; Schölkopf 等，2021）。
2.  **方法论解决方案**：我们提出了**反事实中和**，并将其与现有的去偏/解耦工具（如对抗性去除和零空间投影）联系起来（Elazar 和 Goldberg, 2018; Ravfogel 等，2020）。
3.  **效度测试套件**：我们定义了一套标准化的评估标准（稳定性/可靠性、聚合效度、区分效度和增量效度、已知组检验以及效标关联证据），以测试代理是否在干扰维度之外追踪预期的构念。
4.  **文献法医审查**：我们分析了最近的出版物（2021–2025），记录了几乎相同的基于相似性的仪器被重复用于不同、有时甚至矛盾的构念。

#### 范围与定位

本文是一项**立场与综合**性贡献：我们将 CVP 提出为面向社区的测量识别报告协议，而非最终或排他性的标准。我们将 CVP 呈现为一个起点，应随着证据的积累以及对 NLP 特定失效模式的更好理解而迭代，其精神类似于相邻领域（如 NLP 数据声明；Bender 和 Friedman, 2018）中不断演变的报告指南。我们的目标不是阻碍复杂社会现象的测量，而是提供工具使此类测量在科学上可辩护。在计算社会科学（CSS）中，这些构建的变量通常是下游因果推断或预测任务的关键输入。然而，如果变量构建本身缺乏效度，没有任何因果 ML 方法能严格确立下游因果关系。

## 2 相关文献：社会测量的现状

我们的工作连接了三个经常被单独引用但很少在 NLP 中整合的研究传统：(i) 来自社会科学的测量理论和构念效度，(ii) 因果表示学习和可识别性，以及 (iii) 近期关于模型和注释实际测量内容的 NLP 方法论辩论。

### 2.1 测量理论与构念效度

测量理论区分**构念**（理论概念）与**测量指标**（可观察指标）。正如标准社会科学指南所编纂的那样（DeVellis, 2016; Adcock 和 Collier, 2001），验证不是一个定义行为，而是一个实证行为：研究人员必须证明测量指标在“公理网络”中按预期表现，与相关概念相关（聚合效度），同时与干扰因素保持区分（区分效度）。随着 NLP 领域 targeting 复杂社会变量，这一严格框架变得越来越相关。越来越多的工作现在通过明确的**可观察领域**来操作化构念——例如，将说服力分解为特定的抵抗策略，或将社会规范映射到定义好的互动模式（Vijjini 等，2024; Huang 和 Yang, 2023）。这些研究例证了我们形式化的“从构念到测量”的流程，与优先考虑预测而不分离信号与混淆噪声的标量指标形成对比。

### 2.2 NLP 中的效度：注释、偏见与代理的局限

另一条并行线索认为，许多 NLP 变量从其测量过程中继承了歧义。人类标签变异越来越多地被认可为不是注释者错误，而是语言歧义和主观性的有意义信号（Pavlick 和 Kwiatkowski, 2019; Plank, 2022; Davani 等，2022; Aroyo 和 Welty, 2015）。此外，数据集策划和注释协议可以将结构性伪影和退化捷径嵌入文本，产生看似测量目标构念但实际上追踪注释或采样规律的变量（Gururangan 等，2018; Poliak 等，2018; McCoy 等，2019; Bender 和 Friedman, 2018; Geiger 等，2020）。

公平性和社会 NLP 中的方法论批评强调，“毒性”和“偏见”等数量通常被操作化为便捷的代理，遭受构念滑动和规范不匹配，包括方言和体裁混淆（Blodgett 等，2020; Sap 等，2019）。这一观点补充了我们的主张，即测量失败通常是**方法方差失败**：看似社会构念的东西可能主要反映数据集组成、体裁、方言或频率伪影。我们的 CVP 通过要求明确的混淆测试、与既定 NLP 评估实践一致的不变性检查（Ribeiro 等，2020; Gardner 等，2020）以及透明报告代理对什么的敏感性，使这些批评具有可操作性。

### 2.3 因果表示学习与不可识别性

我们将框架建立在因果表示学习之上（Schölkopf 等，2021），后者确立了一个基本的不可识别性结果：在没有明确的结构假设或干预的情况下，仅凭观察数据在理论上不可能将潜在因果因子解耦。我们将这一约束应用于社会测量：从文本中提取有效构念（$C$）需要主动建模和中和干扰因子（$Z$），而不是假设无监督嵌入会自发隔离它们。

除了表示学习外，互补文献研究了源自文本的变量何时支持下游因果推断（Egami 等，2022），以及如何通过基于设计的估计量使用不完美的代理进行下游推断（Egami 等，2023）。政治科学中的学习代理方法论进一步强调，事后相关性对于用学习代理测试因果理论是不够的（Knox 等，2022）。我们将 CVP 定位为处理这些下游框架通常假设的测量效度先决条件。

## 3 无监督逆构造的不可能性

当前的计算社会科学通常依赖于这样一个假设：特定的潜在社会构念 $C$（例如，仇恨情绪分数）可以使用固定的代理函数 $f(D)$ 直接从观察到的文档 $D$ 中恢复。我们认为，这种构成构成了一个**病态逆问题**，在形式上类似于因果推断中的识别问题。

### 3.1 案例 I：单文档测量

设文档 $D \in \mathcal{D}$ 的生成被建模为一个随机过程，依赖于两组不相交的潜在因子：标量目标构念 $c \in \mathbb{R}$ 和干扰属性向量 $\mathbf{z} \in \mathbb{R}^k$（例如，主题、长度、作者身份）。我们将文档生成过程建模为从由 $\theta$ 参数化的条件概率分布中抽取：

$$ p_\theta(D \mid c, \mathbf{z}) \quad (1) $$

标准测量管道试图反转此过程：

1.  **表示学习**：编码器 $E: \mathcal{D} \to \mathbb{R}^d$ 将文本映射到嵌入空间 $\mathbf{e}$。
2.  **代理构建**：应用函数 $f: \mathbb{R}^d \to \mathbb{R}$ 来估计标量构念：$\hat{c} = f(\mathbf{e})$。

理想情况下，$f(E(D))$ 应恢复 $c$。然而，正如表示学习文献所确立的那样（Locatello 等，2019; Schölkopf 等，2021），如果没有结构假设，这种恢复在理论上是不可能的。

#### 命题 1（旋转模糊性）

设联合潜在空间为 $\mathbf{h} = [c; \mathbf{z}]$，具有因子化的各向同性高斯先验 $p(\mathbf{h}) = \mathcal{N}(0, I)$。对于任何最大化数据似然 $p(D)$ 的无监督目标，学习到的表示仅在任意正交旋转下是可识别的。因此，标量维度 $c$ 与干扰向量 $\mathbf{z}$ 不可分割地混合。

#### 证明概要

遵循 Locatello 等（2019），考虑边际似然 $p(D) = \int p_\theta(D \mid \mathbf{h}) p(\mathbf{h}) d\mathbf{h}$。设 $R$ 为任意正交矩阵（$R^\top R = I$）。我们定义变换后的潜在空间 $\mathbf{h}' = R\mathbf{h}$。由于高斯先验的各向同性，密度是旋转不变的：$p(\mathbf{h}') = p(\mathbf{h})$。现在，考虑由 $G'(\mathbf{x}) = G(R^\top \mathbf{x})$ 定义的替代生成器。如果我们假设数据生成过程使用潜在变量 $\mathbf{h}'$ 和生成器 $G'$...

代理预设：从语义嵌入到有效的社会测量

相似文章

共享语义空间中的心理构念

通过人口统计条件融合嵌入学习视角主义社会意义

FormInv：数学推理基准中语义不变性的测量协议

Embeddings 用于偏好，而非语义

从稀疏特征到可信代理：认证基于SAE的可解释性

提交意见反馈