代理预设:从语义嵌入到有效的社会测量
摘要
本文批评了自然语言处理(NLP)中的“代理预设”,即错误地将几何嵌入属性与社会构念等同起来。文章提出了结构效度协议(Construct Validity Protocol)和反事实中立化(Counterfactual Neutralization)方法,以确保对源自语义嵌入的社会测量进行严格的验证。
arXiv:2605.07409v1 宣布类型:新论文
摘要:自然语言处理正在迅速发展成为计算社会科学的主要工具,研究人员越来越多地使用嵌入来衡量潜在构念,如新颖性、创造力和偏见。然而,这一转变面临一个根本性的效度挑战:“代理预设”,即依赖几何属性(例如余弦距离)作为社会概念的直接测量指标。我们认为,如果没有明确的验证,无监督表示仍然是目标构念($C$)与混杂属性($Z$,如主题、风格和作者身份)的纠缠混合物。为了弥合语义嵌入与有效社会测量之间的差距,我们引入了结构效度协议(CVP)。借鉴因果表示学习和心理测量学,CVP 提供了一条从概念化到定量验证的严格流程。我们进一步提出了一种新颖的方法——反事实中立化,利用大语言模型(LLM)来减少嵌入空间中的混杂因素。通过提供一套标准化的效度测试套件——包括区分效度、增量效度和预测效度测试——本研究为社区提供了一套工具包,将启发式代理转化为稳健且经得起科学检验的测量工具。
查看缓存全文
缓存时间: 2026/05/11 07:02
# 代理预设:从语义嵌入到有效的社会测量指标
来源: https://arxiv.org/html/2605.07409
###### 摘要
自然语言处理(NLP)正迅速演变为计算社会科学(Computational Social Science, CSS)的主要工具,研究人员越来越多地使用嵌入(embeddings)来测量诸如新颖性、创造力和偏见等潜在构念。然而,这一转变面临一个根本性的效度挑战:“代理预设”(Proxy Presumption),即依赖几何属性(如余弦距离)作为社会概念的直接度量。我们认为,如果没有明确的验证,无监督表示仍然是目标构念($C$)与混淆属性($Z$,如主题、风格和作者身份)的纠缠混合物。为了弥合语义嵌入与有效社会度量之间的差距,我们引入了构念效度协议(Construct Validity Protocol, CVP)。CVP借鉴了因果表示学习和心理测量的理论,提供了一条从概念化到定量验证的严格流程。此外,我们提出了一种新颖的方法——反事实中和(Counterfactual Neutralization),利用大语言模型(LLM)来减少嵌入空间中的混淆因素。通过提供一套标准化的效度测试套件(包括区分效度、增量效度和预测效度测试),本研究为社区提供了一套工具,将启发式代理转化为 robust 且科学上可辩护的测量仪器。
## 1 引言
当代自然语言处理(NLP)的核心雄心已超越预测下一个 token;我们越来越多地被要求测量社会世界。最近的文献开创了抽象社会构念的量化方法,为新颖性、创造力和偏见等概念提出了计算指标(Merrill 等,2024; Lee 等,2024; Bang 等,2024)。这一转变标志着关键时刻:NLP 正从一门工程学科演变为计算社会科学的主要测量仪器。
然而,这一雄心引入了一个方法论挑战:**理论构念**(我们打算测量的内容)与**计算代理**(我们实现的内容)之间的差距。在缺乏潜在社会变量的既定“地面真值”的情况下,该领域面临着我们要称为**代理预设**的风险:一种便捷的几何属性——通常是嵌入空间中的余弦相似度——在缺乏充分验证的情况下被重命名为理论构念(Caliskan 等,2017; May 等,2019; Bolukbasi 等,2016; Garg 等,2018; Kozlowski 等,2019)。
我们强调,这不是孤立的错误,而是大量具有影响力的 NLP/ML 测量工作中反复出现的模式,同时承认不同论文在验证其代理的严谨性方面存在有意义的差异。虽然向量距离捕捉了语义分歧,但将其直接等同于“创新”或“创造力”,假设嵌入空间几何与社会现实之间存在强烈的同构关系,而这种关系可能并不成立。虽然测量效度是机器学习中的一个普遍问题,但代理预设在 NLP 中尤为尖锐,因为文本是计算社会科学的初级非结构化介质,且文本中的主要干扰维度($Z$)本质上是语言性的(语域、方言、语用、风格)。此外,许多可以减少混淆的干预措施是文本原生的,包括反事实重写和语言感知去偏方法(Elazar 和 Goldberg, 2018; Ravfogel 等,2020; Blodgett 等,2020; Sap 等,2019)。
本文认为,这种“通过重命名进行的测量”可以形式化为一个**不可识别性问题**:无监督嵌入将多个生成因子压缩到单一表示中,将目标构念($C$)与诸如主题、作者风格、语域或长度等干扰属性($Z$)纠缠在一起(Locatello 等,2019; Schölkopf 等,2021)。如果没有明确的解耦或基于设计来控制,标准指标可能主要捕捉方法方差,而非预期的社会现象(Zhou 等,2022)。例如,高的余弦距离可能反映真正的概念断裂,也可能仅仅反映词汇量的变化。即使实现了完美的解耦,当前做法仍遭受**误设问题**:用于表示新概念的函数(如余弦相似度)可能不是最能代表 $C$ 与文档之间功能关系的函数,尤其是在排除混淆协变量 $Z$ 的影响后。
为了应对这一挑战并支持 CSS 的成熟,我们引入了**构念效度协议(CVP)**。改编自心理测量学和因果表示学习的标准(Bengio 等,2013; Locatello 等,2019; Schölkopf 等,2021),CVP 为验证 NLP 中的社会变量提供了路线图。我们的贡献有四点:
1. **一个不可识别性结果**:我们形式化地说明了为什么在无显式假设或干预的情况下,无监督指标无法可靠地恢复潜在构念(Locatello 等,2019; Schölkopf 等,2021)。
2. **方法论解决方案**:我们提出了**反事实中和**,并将其与现有的去偏/解耦工具(如对抗性去除和零空间投影)联系起来(Elazar 和 Goldberg, 2018; Ravfogel 等,2020)。
3. **效度测试套件**:我们定义了一套标准化的评估标准(稳定性/可靠性、聚合效度、区分效度和增量效度、已知组检验以及效标关联证据),以测试代理是否在干扰维度之外追踪预期的构念。
4. **文献法医审查**:我们分析了最近的出版物(2021–2025),记录了几乎相同的基于相似性的仪器被重复用于不同、有时甚至矛盾的构念。
#### 范围与定位
本文是一项**立场与综合**性贡献:我们将 CVP 提出为面向社区的测量识别报告协议,而非最终或排他性的标准。我们将 CVP 呈现为一个起点,应随着证据的积累以及对 NLP 特定失效模式的更好理解而迭代,其精神类似于相邻领域(如 NLP 数据声明;Bender 和 Friedman, 2018)中不断演变的报告指南。我们的目标不是阻碍复杂社会现象的测量,而是提供工具使此类测量在科学上可辩护。在计算社会科学(CSS)中,这些构建的变量通常是下游因果推断或预测任务的关键输入。然而,如果变量构建本身缺乏效度,没有任何因果 ML 方法能严格确立下游因果关系。
## 2 相关文献:社会测量的现状
我们的工作连接了三个经常被单独引用但很少在 NLP 中整合的研究传统:(i) 来自社会科学的测量理论和构念效度,(ii) 因果表示学习和可识别性,以及 (iii) 近期关于模型和注释实际测量内容的 NLP 方法论辩论。
### 2.1 测量理论与构念效度
测量理论区分**构念**(理论概念)与**测量指标**(可观察指标)。正如标准社会科学指南所编纂的那样(DeVellis, 2016; Adcock 和 Collier, 2001),验证不是一个定义行为,而是一个实证行为:研究人员必须证明测量指标在“公理网络”中按预期表现,与相关概念相关(聚合效度),同时与干扰因素保持区分(区分效度)。随着 NLP 领域 targeting 复杂社会变量,这一严格框架变得越来越相关。越来越多的工作现在通过明确的**可观察领域**来操作化构念——例如,将说服力分解为特定的抵抗策略,或将社会规范映射到定义好的互动模式(Vijjini 等,2024; Huang 和 Yang, 2023)。这些研究例证了我们形式化的“从构念到测量”的流程,与优先考虑预测而不分离信号与混淆噪声的标量指标形成对比。
### 2.2 NLP 中的效度:注释、偏见与代理的局限
另一条并行线索认为,许多 NLP 变量从其测量过程中继承了歧义。人类标签变异越来越多地被认可为不是注释者错误,而是语言歧义和主观性的有意义信号(Pavlick 和 Kwiatkowski, 2019; Plank, 2022; Davani 等,2022; Aroyo 和 Welty, 2015)。此外,数据集策划和注释协议可以将结构性伪影和退化捷径嵌入文本,产生看似测量目标构念但实际上追踪注释或采样规律的变量(Gururangan 等,2018; Poliak 等,2018; McCoy 等,2019; Bender 和 Friedman, 2018; Geiger 等,2020)。
公平性和社会 NLP 中的方法论批评强调,“毒性”和“偏见”等数量通常被操作化为便捷的代理,遭受构念滑动和规范不匹配,包括方言和体裁混淆(Blodgett 等,2020; Sap 等,2019)。这一观点补充了我们的主张,即测量失败通常是**方法方差失败**:看似社会构念的东西可能主要反映数据集组成、体裁、方言或频率伪影。我们的 CVP 通过要求明确的混淆测试、与既定 NLP 评估实践一致的不变性检查(Ribeiro 等,2020; Gardner 等,2020)以及透明报告代理对什么的敏感性,使这些批评具有可操作性。
### 2.3 因果表示学习与不可识别性
我们将框架建立在因果表示学习之上(Schölkopf 等,2021),后者确立了一个基本的不可识别性结果:在没有明确的结构假设或干预的情况下,仅凭观察数据在理论上不可能将潜在因果因子解耦。我们将这一约束应用于社会测量:从文本中提取有效构念($C$)需要主动建模和中和干扰因子($Z$),而不是假设无监督嵌入会自发隔离它们。
除了表示学习外,互补文献研究了源自文本的变量何时支持下游因果推断(Egami 等,2022),以及如何通过基于设计的估计量使用不完美的代理进行下游推断(Egami 等,2023)。政治科学中的学习代理方法论进一步强调,事后相关性对于用学习代理测试因果理论是不够的(Knox 等,2022)。我们将 CVP 定位为处理这些下游框架通常假设的测量效度先决条件。
## 3 无监督逆构造的不可能性
当前的计算社会科学通常依赖于这样一个假设:特定的潜在社会构念 $C$(例如,仇恨情绪分数)可以使用固定的代理函数 $f(D)$ 直接从观察到的文档 $D$ 中恢复。我们认为,这种构成构成了一个**病态逆问题**,在形式上类似于因果推断中的识别问题。
### 3.1 案例 I:单文档测量
设文档 $D \in \mathcal{D}$ 的生成被建模为一个随机过程,依赖于两组不相交的潜在因子:标量目标构念 $c \in \mathbb{R}$ 和干扰属性向量 $\mathbf{z} \in \mathbb{R}^k$(例如,主题、长度、作者身份)。我们将文档生成过程建模为从由 $\theta$ 参数化的条件概率分布中抽取:
$$ p_\theta(D \mid c, \mathbf{z}) \quad (1) $$
标准测量管道试图反转此过程:
1. **表示学习**:编码器 $E: \mathcal{D} \to \mathbb{R}^d$ 将文本映射到嵌入空间 $\mathbf{e}$。
2. **代理构建**:应用函数 $f: \mathbb{R}^d \to \mathbb{R}$ 来估计标量构念:$\hat{c} = f(\mathbf{e})$。
理想情况下,$f(E(D))$ 应恢复 $c$。然而,正如表示学习文献所确立的那样(Locatello 等,2019; Schölkopf 等,2021),如果没有结构假设,这种恢复在理论上是不可能的。
#### 命题 1(旋转模糊性)
设联合潜在空间为 $\mathbf{h} = [c; \mathbf{z}]$,具有因子化的各向同性高斯先验 $p(\mathbf{h}) = \mathcal{N}(0, I)$。对于任何最大化数据似然 $p(D)$ 的无监督目标,学习到的表示仅在任意正交旋转下是可识别的。因此,标量维度 $c$ 与干扰向量 $\mathbf{z}$ 不可分割地混合。
#### 证明概要
遵循 Locatello 等(2019),考虑边际似然 $p(D) = \int p_\theta(D \mid \mathbf{h}) p(\mathbf{h}) d\mathbf{h}$。设 $R$ 为任意正交矩阵($R^\top R = I$)。我们定义变换后的潜在空间 $\mathbf{h}' = R\mathbf{h}$。由于高斯先验的各向同性,密度是旋转不变的:$p(\mathbf{h}') = p(\mathbf{h})$。现在,考虑由 $G'(\mathbf{x}) = G(R^\top \mathbf{x})$ 定义的替代生成器。如果我们假设数据生成过程使用潜在变量 $\mathbf{h}'$ 和生成器 $G'$...相似文章
Embeddings 用于偏好,而非语义
本文介绍了一种新的 embedding 模型,旨在捕捉偏好相似性,而不仅仅是语义相似性,从而提高了集体决策系统中的偏好预测能力。
出于必要性的偏差:收敛式人工智能与人类验证中顺序处理的不可能性定理
本文证明了不可能性定理,表明由于因果掩码(causal masking)约束,首要效应(primacy effects)、锚定效应(anchoring)和顺序依赖性(order-dependence)是自回归语言模型中架构上必然存在的偏差。作者跨越12种前沿大语言模型验证了这些理论界限,并通过涉及工作记忆负荷的预注册人类实验证实了相关预测。
AI 安全的 geopolitics:区域大语言模型偏差的因果分析
本文引入了一个概率图模型框架,以因果方式审核大语言模型(LLM)的安全机制,揭示出由于忽视了语境的毒性,标准的观测指标高估了人口统计学偏差。
从描述性到规范性:揭示基于LLM的智能体的社会价值对齐
本文提出了SoVA,一个使用GraphRAG将心理学理论转化为规范性指令,从而使基于LLM的智能体与人类社会价值观对齐的框架。在DAILYDILEMMAS基准上的实验表明,相比基于提示的基线方法有显著改进。
重探语义处理的痛点:语言模型的语义推理基准测试
研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。