基于研究者指定协变量的LLM文本分析的条件假设生成

arXiv cs.CL 论文

摘要

本文介绍了条件假设生成(Conditional Hypothesis Generation),这是一个结合研究者指定协变量的框架,用于引导基于LLM的文本分析发现有意义的子组差异,同时解决诸如层不平衡和符号反转等混杂因素。

arXiv:2606.03029v1 Announce Type: new 摘要:计算社会科学的一个核心目标是发现语言在不同感兴趣结果(如政治派别或教学质量)上的可解释差异。最近的基于LLM的假设生成方法用自然语言描述这些差异,但选择的是全局判别模式,而没有考虑基于研究者领域知识塑造数据的协变量。当忽略协变量时,选中的模式可能反映混杂因素而非实质性感兴趣的差异。我们提出了条件假设生成(Conditional Hypothesis Generation),这是一个结合研究者指定协变量的框架,用于将假设发现引导至相关子组内成立的差异。出现了两个挑战:目标子组可能代表性不足(层不平衡),以及差异的方向可能在子组间反转(符号反转)。我们提出了两种受计量经济学启发的方法:一种引入特征-协变量交互来检测符号反转,另一种应用层内去均值和逆频率重加权来平衡代表性不足的层。合成实验表明,每种方法在其目标设定中都优于全局基线,专家对两个真实世界数据集的评估证实,考虑协变量的生成能在相关子组内产生更有用的假设。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:36

# 基于研究者指定协变量的条件性假设生成用于LLM文本分析
来源:https://arxiv.org/html/2606.03029
Wei Ai

马里兰大学帕克分校 \{paiheng,jliu28,aiwei\}@umd\.edu

###### 摘要

计算社会科学的核心目标之一是发现语言在不同结果变量(如政治倾向或教学质量)之间变化时具有可解释性的差异。最近的基于llm的假设生成方法以自然语言描述此类差异,但仅选择全局判别模式,而未考虑基于研究者领域知识塑造数据的协变量。忽略协变量时,所选模式可能反映混杂因素而非实质性关注的差异。我们引入了*条件性*假设生成框架,该框架纳入研究者指定的协变量,将假设发现引导至在相关子组内成立的差异。这带来了两个挑战:目标子组可能代表性不足(*层不平衡*),且差异方向可能跨子组反转(*符号反转*)。我们提出了两种受计量经济学启发的方法:一种引入特征-协变量交互项以检测符号反转,另一种应用层内去均值化和逆频率重加权以平衡代表性不足的层。合成实验表明,每种方法在其目标场景下均优于全局基线,而两个真实世界数据集上的专家评估证实,协变量感知的生成能在相关子组内浮现出更有用的假设。

基于研究者指定协变量的LLM文本分析条件性假设生成

Paiheng Xu、Jing Liu和Wei Ai  
马里兰大学帕克分校  
\{paiheng,jliu28,aiwei\}@umd\.edu

## 1 引言

计算社会科学(css)的核心目标之一是理解文本如何与政治倾向、教学质量或社交媒体参与度等变量相关联。研究者并非旨在预测这些结果,而是寻求可解释的假设——即文本模式如何随结果值变化的自然语言描述——以指导进一步研究(Grimmer and Stewart,2013(https://arxiv.org/html/2606.03029#bib.bib27); Card,2019(https://arxiv.org/html/2606.03029#bib.bib28); Grimmer et al.,2022(https://arxiv.org/html/2606.03029#bib.bib26))。

最近的基于llm的方法通过采样带标签的示例并提示llm提出自然语言假设来描述与不同结果值相关的文本模式,从而支持这种分析形式(Zhong et al.,2022(https://arxiv.org/html/2606.03029#bib.bib30),2023(https://arxiv.org/html/2606.03029#bib.bib31),2024(https://arxiv.org/html/2606.03029#bib.bib33); Zhou et al.,2024(https://arxiv.org/html/2606.03029#bib.bib24); Movva et al.,2025(https://arxiv.org/html/2606.03029#bib.bib32))。这些方法通常根据假设在结果组之间的判别能力来选择假设。

然而,全局判别可能具有误导性。一个全局判别特征可能反映的是混杂因素而非实质性关注的差异,这是文本即数据研究中长期存在的问题(Grimmer and Stewart,2013(https://arxiv.org/html/2606.03029#bib.bib27); Gentzkow et al.,2019(https://arxiv.org/html/2606.03029#bib.bib21); Grimmer et al.,2022(https://arxiv.org/html/2606.03029#bib.bib26))。例如,Taddy(2013(https://arxiv.org/html/2606.03029#bib.bib22))表明,国家公园语言作为党派预测特征出现,是因为公共土地在各州分布不均,尽管国家公园问题本身并非党派性。挑战在于将发现引导至研究者关心的条件下成立的差异——并让研究者指定这些条件。

我们引入了*条件性*假设生成,这是一种在研究者指定的协变量层内生成判别性假设的框架。协变量——如政策领域、时间段或课堂环境——编码了研究者带入文本分析的领域知识:它们定义了应检查差异的条件,而无需预先知道假设本身。

对协变量进行条件化会带来两个统计挑战(Simpson,1951(https://arxiv.org/html/2606.03029#bib.bib29); Gail and Simon,1985(https://arxiv.org/html/2606.03029#bib.bib38))。目标层可能代表性不足,使得其信号被较大的层主导(*层不平衡*);或者差异方向可能跨层反转(*符号反转*),从而全局聚合会抵消条件模式。

我们基于Movva等人的工作(2025(https://arxiv.org/html/2606.03029#bib.bib32)),该工作将文档映射到单一语义的稀疏自编码器(sae)特征,并通过lasso选择判别性特征。由于sae特征在统计选择之前已固定,协变量可以直接纳入选择步骤。借鉴计量经济学,我们提出了两种互补方法。*交互项-lasso*通过特征-协变量交互项增强特征空间,使得特征即使其全局效应为零,只要在单个层内具有判别性,也能被选中。*去均值化加权-lasso*在协变量层内对特征和结果进行残差化,以隔离层内变异,并应用逆频率加权,使得代表性不足的层能对特征选择做出可比贡献。

在具有已知真实假设和协变量结构的合成评估中,去均值化加权-lasso在不同不平衡水平下均优于全局基线并接近最优性能,而交互项-lasso是唯一能在符号反转下恢复差异的方法。

我们在两个真实世界数据集上进行了验证:congress,一个长期用于政治语言测试的基准(Gentzkow and Shapiro,2010(https://arxiv.org/html/2606.03029#bib.bib15); Grimmer et al.,2021(https://arxiv.org/html/2606.03029#bib.bib14));以及ncte,一个包含丰富教学质量标注的数学课堂记录数据集(Demszky and Hill,2023(https://arxiv.org/html/2606.03029#bib.bib13); Hill et al.,2008(https://arxiv.org/html/2606.03029#bib.bib9); Pianta et al.,2012(https://arxiv.org/html/2606.03029#bib.bib12))。专家评估表明,协变量感知的选择浮现出的假设被领域专家评为比全局基线独有的假设更有用。

我们的贡献如下:(1)我们形式化了带有研究者指定协变量的文本分析条件性假设生成。(2)我们引入了两种互补的协变量感知方法,每种针对不同的统计挑战(即层不平衡和符号反转)。(3)我们设计了覆盖这两种挑战的受控合成评估。(4)在两个真实世界数据集上的专家评估表明,协变量感知方法将发现引导至领域专家认为更有用的假设。

## 2 预备知识

### 2.1 任务形式化

我们考虑数据集\{\(xi,yi\)\}i∈\[N\],其中xix\_\{i\}是文本文档,yiy\_\{i\}是目标变量。在最简单的情况下,yiy\_\{i\}指示文档的组成员身份。*假设生成*的目标是产生一组自然语言陈述H\\mathcal\{H\},描述yiy\_\{i\}如何随文本内容变化,其中\|H\|\|\\mathcal\{H\}\|是预设的要生成的假设数量。每个文本都与一组协变量V\\mathcal\{V\}相关联,这些协变量可能包括元数据(例如时间段、作者人口统计信息)或可从文本中推断出的属性(例如主题)。在我们的设置中,研究者可以根据领域知识指定这些协变量的一个子集C\\mathbf\{C\},以指导在相关协变量层内的假设生成。

### 2.2 基于llm的假设生成

用于文本比较的基于llm的假设生成通常遵循采样-提议模式:采样一小部分带标签的示例,然后要求llm归纳模式并从这些示例中提出自然语言假设。现有方法在采样策略上有所不同。Zhong等人(2022(https://arxiv.org/html/2606.03029#bib.bib30),2023(https://arxiv.org/html/2606.03029#bib.bib31))训练一个分类模型来随机采样最具判别性的文本。Zhou等人(2024(https://arxiv.org/html/2606.03029#bib.bib24))从当前候选列表错误分类的示例中迭代生成假设。这些方法随后根据判别能力过滤候选假设。

Zhong等人(2024(https://arxiv.org/html/2606.03029#bib.bib33))和Movva等人(2025(https://arxiv.org/html/2606.03029#bib.bib32))则使用统计模型在全部NN个样本上选择最具预测性的特征,然后调用llm从一组与特征相关的文本中描述每个选中的特征。Movva等人(2025(https://arxiv.org/html/2606.03029#bib.bib32))是当前最先进的方法,他们在文本嵌入上训练稀疏自编码器(sae)以获得一组固定的可解释特征,然后通过lasso选择那些对yy最具预测性的特征,详见第2.3节(https://arxiv.org/html/2606.03029#S2.SS3)。我们建立在特征选择的视角上,因为这使得纳入协变量C\\mathbf\{C\}变得清晰明确。

### 2.3 基于sae的假设生成

sae鼓励每个输入仅从少量活跃特征的子集中重构(Hube等人,2024(https://arxiv.org/html/2606.03029#bib.bib35))。这种训练目标倾向于产生单一语义特征,其中每个维度捕获一个连贯、可解释的概念。Movva等人(2025(https://arxiv.org/html/2606.03029#bib.bib32))利用了这一特性,分为三步:(1)SAE编码:训练好的sae将每个文档嵌入映射到特征激活的稀疏向量。该向量中的每个维度对应一个学习到的sae特征。(2)特征选择:一个统计模型(例如lasso)选择对yy最具预测性的\|H\|\|\\mathcal\{H\}\|个特征。(3)llm解释:对于每个选中的特征,llm描述对比激活最强的输入文档(正例)与零激活的输入文档(负例)的文本,形成自然语言假设;表8(https://arxiv.org/html/2606.03029#A3.T8)显示了提示。第2步接受任何统计模型,因此很容易将特征选择条件化于协变量C\\mathbf\{C\},如下所示。

## 3 方法

我们将*条件性*假设生成的目标定义为发现那些在C\\mathbf\{C\}的层内具有判别性的组差异,这带来了两个统计挑战(Simpson,1951(https://arxiv.org/html/2606.03029#bib.bib29); Blyth,1972(https://arxiv.org/html/2606.03029#bib.bib37); Gail and Simon,1985(https://arxiv.org/html/2606.03029#bib.bib38)):(1)层不平衡:相关的协变量层在语料库中可能很少见,目标差异被其他层中不相关的差异所主导。(2)符号反转:组差异的方向跨层变化,因此全局差异可能抵消或错误表达目标差异。一个经典例子是辛普森悖论(Simpson,1951(https://arxiv.org/html/2606.03029#bib.bib29))。目标假设只有通过层内比较才能可靠生成。我们将两种经过深入研究的计量经济学工具应用于sae特征选择:交互模型和组固定效应(通过层内去均值化实现)。两者都涵盖了全局情况:在所有层内都具有判别性的特征会与层特定的特征一起被选中。

##### 设置。

设Z∈RN×MZ\\in\\mathbb\{R\}^\{N\\times M\}为sae激活矩阵,其中zi,mz\_\{i,m\}是文档ii中特征mm的激活值,MM是sae特征的数量。设C=\[C1,...,CP\]∈RN×P\\mathbf\{C\}=\[C\_\{1\},\\ldots,C\_\{P\}\]\\in\\mathbb\{R\}^\{N\\times P\}为协变量矩阵,其中CpC\_\{p\}是第pp个协变量列,PP是协变量的数量。为简单起见,我们专注于二元语料比较(y∈\{0,1\}Ny\\in\\\{0,1\\\}^\{N\},编码语料AA或BB)。基线lasso拟合L1正则化逻辑回归:

β^=arg⁡minβ⁡l\(y,Zβ\)\+λ‖β‖1,\\hat\{\\beta\}=\\arg\\min\_\{\\beta\}\\ell\(y,Z\\beta\)\+\\lambda\\\|\\beta\\\|\_\{1\},(1)

并选择按\|β^m\|\|\\hat\{\\beta\}\_\{m\}\|排序的前\|H\|\|\\mathcal\{H\}\|个特征,仅捕获全局判别特征。

### 3.1 交互项-lasso

在回归中建模协变量特定效应的标准方法是包含*交互项*(两个变量的乘积)(Angrist and Pischke,2009(https://arxiv.org/html/2606.03029#bib.bib36))。当sae特征与协变量交互时,该特征的系数可以随协变量变化,从而捕获层内差异。我们通过用协变量C\\mathbf\{C\}和每个协变量p∈\[P\]p\\in\[P\]的特征-协变量交互块Z⊙CpZ\\odot C\_\{p\}来增强sae激活矩阵,来应用这一思想,其中Z⊙CpZ\\odot C\_\{p\}表示将所有MM个sae特征按行乘以协变量CpC\_\{p\}。设η\(β,δ,γ\)=Zβ\+Cδ\+∑p=1P\(Z⊙Cp\)γp\\eta\(\\beta,\\delta,\\gamma\)=Z\\beta\+\\mathbf\{C\}\\delta\+\\sum\_\{p=1\}^\{P\}\(Z\\odot C\_\{p\}\)\\gamma\_\{p\}。我们在完整的增强空间上拟合lasso:

β^,δ^,γ^=arg⁡minβ,δ,γ⁡l\(y,η\(β,δ,γ\)\)\+λ‖\(β,δ,γ\)‖1。\\hat\{\\beta\},\\hat\{\\delta\},\\hat\{\\gamma\}=\\arg\\min\_\{\\beta,\\delta,\\gamma\}\\ell\\\!\\left\(y,\\eta\(\\beta,\\delta,\\gamma\)\\right\)\+\\lambda\\\|\(\\beta,\\delta,\\gamma\)\\\|\_\{1\}。(2)

这里β\\beta是sae特征的主效应,δ\\delta是协变量的主效应,γp\\gamma\_\{p\}是协变量pp的交互效应。我们按max⁡\(\|β^m\|,maxp∈\[P\]⁡\|γ^p,m\|\)\\max\(\|\\hat\{\\beta\}\_\{m\}\|,\\max\_\{p\\in\[P\]\}\|\\hat\{\\gamma\}\_\{p,m\}\|\)对特征排序,并选择前\|H\|\|\\mathcal\{H\}\|个特征。如果一个特征在全局上具有判别性(大\|β^m\|\|\\hat\{\\beta\}\_\{m\}\|)或通过任何协变量特定的交互(对于某个pp,大\|γ^p,m\|\|\\hat\{\\gamma\}\_\{p,m\}\|),则该特征合格,这直接实现了所述目标。协变量的主效应δ\\delta作为干扰控制项包含在内,不作为潜在的假设进行排序。

然而,交互项-lasso面临两个实际限制。首先,特征空间通过包含M×PM\{\\times\}P个交互特征而大幅扩展,这增加了计算成本,并可能使特征选择在高维情况下变得更不稳定(Bien等人,2013(https://arxiv.org/html/2606.03029#bib.bib8))。其次,sae特征本质上是稀疏的,因此每个交互项Z⊙CpZ\{\\odot\}C\_\{p\}是双重稀疏的:仅对Ci,p≠0C\_\{i,p\}\{\\neq\}0且特征激活的样本非零。当协变量稀少时,这些项几乎全为零,使得γ^p,m\\hat\{\\gamma\}\_\{p,m\}的估计噪声较大(Crump等人,2009(https://arxiv.org/html/2606.03029#bib.bib7))。我们在第4.4节(https://arxiv.org/html/2606.03029#S4.SS4)中对此进行实证验证。

### 3.2 去均值化加权-lasso

为了克服实际限制,我们改编了另一种标准计量经济学技术,称为去均值化,即从观测值中减去组均值,以去除组间变异并隔离组内差异(Angrist and Pischke,2009(https://arxiv.org/html/2606.03029#bib.bib36))。根据Frisch–Waugh–Lovell定理(Lovell,1963(https://arxiv.org/html/2606.03029#bib.bib34)),这类似于在回归中加入组固定效应。具体来说,我们根据文档的观测协变量值对文档进行分组,对sae激活值ZZ和yy进行残差化处理,使其相对于组均值居中。然后,我们应用逆频率加权,以确保较小的组对后续lasso回归的贡献与较大的组大致相同。通过这种处理,lasso能够更可靠地检测那些仅在特定层内呈现差异的模式,即使该层规模较小。去均值化加权-lasso不会像交互项-lasso那样遭遇二次稀疏性问题,因为去均值化步骤适用于整个特征向量,而不是创建大量的交互项。此外,由于涉及的协变量数量通常较少(例如,主题类别或时间段),分层和加权过程在计算上是高效的。我们将在合成实验中证明,这种方法在处理层不平衡问题时特别有效。# 基于研究者指定协变量的条件性假设生成用于LLM文本分析
来源:https://arxiv.org/html/2606.03029
Wei Ai

马里兰大学帕克分校 \{paiheng,jliu28,aiwei\}@umd\.edu

###### 摘要

计算社会科学的核心目标之一是发现语言在不同结果变量(如政治倾向或教学质量)之间变化时具有可解释性的差异。最近的基于llm的假设生成方法以自然语言描述此类差异,但仅选择全局判别模式,而未考虑基于研究者领域知识塑造数据的协变量。忽略协变量时,所选模式可能反映混杂因素而非实质性关注的差异。我们引入了*条件性*假设生成框架,该框架纳入研究者指定的协变量,将假设发现引导至在相关子组内成立的差异。这带来了两个挑战:目标子组可能代表性不足(*层不平衡*),且差异方向可能跨子组反转(*符号反转*)。我们提出了两种受计量经济学启发的方法:一种引入特征-协变量交互项以检测符号反转,另一种应用层内去均值化和逆频率重加权以平衡代表性不足的层。合成实验表明,每种方法在其目标场景下均优于全局基线,而两个真实世界数据集上的专家评估证实,协变量感知的生成能在相关子组内浮现出更有用的假设。

基于研究者指定协变量的LLM文本分析条件性假设生成

Paiheng Xu、Jing Liu和Wei Ai  
马里兰大学帕克分校  
\{paiheng,jliu28,aiwei\}@umd\.edu

## 1 引言

计算社会科学(css)的核心目标之一是理解文本如何与政治倾向、教学质量或社交媒体参与度等变量相关联。研究者并非旨在预测这些结果,而是寻求可解释的假设——即文本模式如何随结果值变化的自然语言描述——以指导进一步研究(Grimmer and Stewart,2013(https://arxiv.org/html/2606.03029#bib.bib27); Card,2019(https://arxiv.org/html/2606.03029#bib.bib28); Grimmer et al.,2022(https://arxiv.org/html/2606.03029#bib.bib26))。

最近的基于llm的方法通过采样带标签的示例并提示llm提出自然语言假设来描述与不同结果值相关的文本模式,从而支持这种分析形式(Zhong et al.,2022(https://arxiv.org/html/2606.03029#bib.bib30),2023(https://arxiv.org/html/2606.03029#bib.bib31),2024(https://arxiv.org/html/2606.03029#bib.bib33); Zhou et al.,2024(https://arxiv.org/html/2606.03029#bib.bib24); Movva et al.,2025(https://arxiv.org/html/2606.03029#bib.bib32))。这些方法通常根据假设在结果组之间的判别能力来选择假设。

然而,全局判别可能具有误导性。一个全局判别特征可能反映的是混杂因素而非实质性关注的差异,这是文本即数据研究中长期存在的问题(Grimmer and Stewart,2013(https://arxiv.org/html/2606.03029#bib.bib27); Gentzkow et al.,2019(https://arxiv.org/html/2606.03029#bib.bib21); Grimmer et al.,2022(https://arxiv.org/html/2606.03029#bib.bib26))。例如,Taddy(2013(https://arxiv.org/html/2606.03029#bib.bib22))表明,国家公园语言作为党派预测特征出现,是因为公共土地在各州分布不均,尽管国家公园问题本身并非党派性。挑战在于将发现引导至研究者关心的条件下成立的差异——并让研究者指定这些条件。

我们引入了*条件性*假设生成,这是一种在研究者指定的协变量层内生成判别性假设的框架。协变量——如政策领域、时间段或课堂环境——编码了研究者带入文本分析的领域知识:它们定义了应检查差异的条件,而无需预先知道假设本身。

对协变量进行条件化会带来两个统计挑战(Simpson,1951(https://arxiv.org/html/2606.03029#bib.bib29); Gail and Simon,1985(https://arxiv.org/html/2606.03029#bib.bib38))。目标层可能代表性不足,使得其信号被较大的层主导(*层不平衡*);或者差异方向可能跨层反转(*符号反转*),从而全局聚合会抵消条件模式。

我们基于Movva等人的工作(2025(https://arxiv.org/html/2606.03029#bib.bib32)),该工作将文档映射到单一语义的稀疏自编码器(sae)特征,并通过lasso选择判别性特征。由于sae特征在统计选择之前已固定,协变量可以直接纳入选择步骤。借鉴计量经济学,我们提出了两种互补方法。*交互项-lasso*通过特征-协变量交互项增强特征空间,使得特征即使其全局效应为零,只要在单个层内具有判别性,也能被选中。*去均值化加权-lasso*在协变量层内对特征和结果进行残差化,以隔离层内变异,并应用逆频率加权,使得代表性不足的层能对特征选择做出可比贡献。

在具有已知真实假设和协变量结构的合成评估中,去均值化加权-lasso在不同不平衡水平下均优于全局基线并接近最优性能,而交互项-lasso是唯一能在符号反转下恢复差异的方法。

我们在两个真实世界数据集上进行了验证:congress,一个长期用于政治语言测试的基准(Gentzkow and Shapiro,2010(https://arxiv.org/html/2606.03029#bib.bib15); Grimmer et al.,2021(https://arxiv.org/html/2606.03029#bib.bib14));以及ncte,一个包含丰富教学质量标注的数学课堂记录数据集(Demszky and Hill,2023(https://arxiv.org/html/2606.03029#bib.bib13); Hill et al.,2008(https://arxiv.org/html/2606.03029#bib.bib9); Pianta et al.,2012(https://arxiv.org/html/2606.03029#bib.bib12))。专家评估表明,协变量感知的选择浮现出的假设被领域专家评为比全局基线独有的假设更有用。

我们的贡献如下:(1)我们形式化了带有研究者指定协变量的文本分析条件性假设生成。(2)我们引入了两种互补的协变量感知方法,每种针对不同的统计挑战(即层不平衡和符号反转)。(3)我们设计了覆盖这两种挑战的受控合成评估。(4)在两个真实世界数据集上的专家评估表明,协变量感知方法将发现引导至领域专家认为更有用的假设。

## 2 预备知识

### 2.1 任务形式化

我们考虑数据集\{\(xi,yi\)\}i∈\[N\],其中xix\_\{i\}是文本文档,yiy\_\{i\}是目标变量。在最简单的情况下,yiy\_\{i\}指示文档的组成员身份。*假设生成*的目标是产生一组自然语言陈述H\\mathcal\{H\},描述yiy\_\{i\}如何随文本内容变化,其中\|H\|\|\\mathcal\{H\}\|是预设的要生成的假设数量。每个文本都与一组协变量V\\mathcal\{V\}相关联,这些协变量可能包括元数据(例如时间段、作者人口统计信息)或可从文本中推断出的属性(例如主题)。在我们的设置中,研究者可以根据领域知识指定这些协变量的一个子集C\\mathbf\{C\},以指导在相关协变量层内的假设生成。

### 2.2 基于llm的假设生成

用于文本比较的基于llm的假设生成通常遵循采样-提议模式:采样一小部分带标签的示例,然后要求llm归纳模式并从这些示例中提出自然语言假设。现有方法在采样策略上有所不同。Zhong等人(2022(https://arxiv.org/html/2606.03029#bib.bib30),2023(https://arxiv.org/html/2606.03029#bib.bib31))训练一个分类模型来随机采样最具判别性的文本。Zhou等人(2024(https://arxiv.org/html/2606.03029#bib.bib24))从当前候选列表错误分类的示例中迭代生成假设。这些方法随后根据判别能力过滤候选假设。

Zhong等人(2024(https://arxiv.org/html/2606.03029#bib.bib33))和Movva等人(2025(https://arxiv.org/html/2606.03029#bib.bib32))则使用统计模型在全部NN个样本上选择最具预测性的特征,然后调用llm从一组与特征相关的文本中描述每个选中的特征。Movva等人(2025(https://arxiv.org/html/2606.03029#bib.bib32))是当前最先进的方法,他们在文本嵌入上训练稀疏自编码器(sae)以获得一组固定的可解释特征,然后通过lasso选择那些对yy最具预测性的特征,详见第2.3节(https://arxiv.org/html/2606.03029#S2.SS3)。我们建立在特征选择的视角上,因为这使得纳入协变量C\\mathbf\{C\}变得清晰明确。

### 2.3 基于sae的假设生成

sae鼓励每个输入仅从少量活跃特征的子集中重构(Hube等人,2024(https://arxiv.org/html/2606.03029#bib.bib35))。这种训练目标倾向于产生单一语义特征,其中每个维度捕获一个连贯、可解释的概念。Movva等人(2025(https://arxiv.org/html/2606.03029#bib.bib32))利用了这一特性,分为三步:(1)SAE编码:训练好的sae将每个文档嵌入映射到特征激活的稀疏向量。该向量中的每个维度对应一个学习到的sae特征。(2)特征选择:一个统计模型(例如lasso)选择对yy最具预测性的\|H\|\|\\mathcal\{H\}\|个特征。(3)llm解释:对于每个选中的特征,llm描述对比激活最强的输入文档(正例)与零激活的输入文档(负例)的文本,形成自然语言假设;表8(https://arxiv.org/html/2606.03029#A3.T8)显示了提示。第2步接受任何统计模型,因此很容易将特征选择条件化于协变量C\\mathbf\{C\},如下所示。

## 3 方法

我们将*条件性*假设生成的目标定义为发现那些在C\\mathbf\{C\}的层内具有判别性的组差异,这带来了两个统计挑战(Simpson,1951(https://arxiv.org/html/2606.03029#bib.bib29); Blyth,1972(https://arxiv.org/html/2606.03029#bib.bib37); Gail and Simon,1985(https://arxiv.org/html/2606.03029#bib.bib38)):(1)层不平衡:相关的协变量层在语料库中可能很少见,目标差异被其他层中不相关的差异所主导。(2)符号反转:组差异的方向跨层变化,因此全局差异可能抵消或错误表达目标差异。一个经典例子是辛普森悖论(Simpson,1951(https://arxiv.org/html/2606.03029#bib.bib29))。目标假设只有通过层内比较才能可靠生成。我们将两种经过深入研究的计量经济学工具应用于sae特征选择:交互模型和组固定效应(通过层内去均值化实现)。两者都涵盖了全局情况:在所有层内都具有判别性的特征会与层特定的特征一起被选中。

##### 设置。

设Z∈RN×MZ\\in\\mathbb\{R\}^\{N\\times M\}为sae激活矩阵,其中zi,mz\_\{i,m\}是文档ii中特征mm的激活值,MM是sae特征的数量。设C=\[C1,...,CP\]∈RN×P\\mathbf\{C\}=\[C\_\{1\},\\ldots,C\_\{P\}\]\\in\\mathbb\{R\}^\{N\\times P\}为协变量矩阵,其中CpC\_\{p\}是第pp个协变量列,PP是协变量的数量。为简单起见,我们专注于二元语料比较(y∈\{0,1\}Ny\\in\\\{0,1\\\}^\{N\},编码语料AA或BB)。基线lasso拟合L1正则化逻辑回归:

β^=arg⁡minβ⁡l\(y,Zβ\)\+λ‖β‖1,\\hat\{\\beta\}=\\arg\\min\_\{\\beta\}\\ell\(y,Z\\beta\)\+\\lambda\\\|\\beta\\\|\_\{1\},(1)

并选择按\|β^m\|\|\\hat\{\\beta\}\_\{m\}\|排序的前\|H\|\|\\mathcal\{H\}\|个特征,仅捕获全局判别特征。

### 3.1 交互项-lasso

在回归中建模协变量特定效应的标准方法是包含*交互项*(两个变量的乘积)(Angrist and Pischke,2009(https://arxiv.org/html/2606.03029#bib.bib36))。当sae特征与协变量交互时,该特征的系数可以随协变量变化,从而捕获层内差异。我们通过用协变量C\\mathbf\{C\}和每个协变量p∈\[P\]p\\in\[P\]的特征-协变量交互块Z⊙CpZ\\odot C\_\{p\}来增强sae激活矩阵,来应用这一思想,其中Z⊙CpZ\\odot C\_\{p\}表示将所有MM个sae特征按行乘以协变量CpC\_\{p\}。设η\(β,δ,γ\)=Zβ\+Cδ\+∑p=1P\(Z⊙Cp\)γp\\eta\(\\beta,\\delta,\\gamma\)=Z\\beta\+\\mathbf\{C\}\\delta\+\\sum\_\{p=1\}^\{P\}\(Z\\odot C\_\{p\}\)\\gamma\_\{p\}。我们在完整的增强空间上拟合lasso:

β^,δ^,γ^=arg⁡minβ,δ,γ⁡l\(y,η\(β,δ,γ\)\)\+λ‖\(β,δ,γ\)‖1。\\hat\{\\beta\},\\hat\{\\delta\},\\hat\{\\gamma\}=\\arg\\min\_\{\\beta,\\delta,\\gamma\}\\ell\\\!\\left\(y,\\eta\(\\beta,\\delta,\\gamma\)\\right\)\+\\lambda\\\|\(\\beta,\\delta,\\gamma\)\\\|\_\{1\}。(2)

这里β\\beta是sae特征的主效应,δ\\delta是协变量的主效应,γp\\gamma\_\{p\}是协变量pp的交互效应。我们按max⁡\(\|β^m\|,maxp∈\[P\]⁡\|γ^p,m\|\)\\max\(\|\\hat\{\\beta\}\_\{m\}\|,\\max\_\{p\\in\[P\]\}\|\\hat\{\\gamma\}\_\{p,m\}\|\)对特征排序,并选择前\|H\|\|\\mathcal\{H\}\|个特征。如果一个特征在全局上具有判别性(大\|β^m\|\|\\hat\{\\beta\}\_\{m\}\|)或通过任何协变量特定的交互(对于某个pp,大\|γ^p,m\|\|\\hat\{\\gamma\}\_\{p,m\}\|),则该特征合格,这直接实现了所述目标。协变量的主效应δ\\delta作为干扰控制项包含在内,不作为潜在的假设进行排序。

然而,交互项-lasso面临两个实际限制。首先,特征空间通过包含M×PM\{\\times\}P个交互特征而大幅扩展,这增加了计算成本,并可能使特征选择在高维情况下变得更不稳定(Bien等人,2013(https://arxiv.org/html/2606.03029#bib.bib8))。其次,sae特征本质上是稀疏的,因此每个交互项Z⊙CpZ\{\\odot\}C\_\{p\}是双重稀疏的:仅对Ci,p≠0C\_\{i,p\}\{\\neq\}0且特征激活的样本非零。当协变量稀少时,这些项几乎全为零,使得γ^p,m\\hat\{\\gamma\}\_\{p,m\}的估计噪声较大(Crump等人,2009(https://arxiv.org/html/2606.03029#bib.bib7))。我们在第4.4节(https://arxiv.org/html/2606.03029#S4.SS4)中对此进行实证验证。

### 3.2 去均值化加权-lasso

为了克服实际限制,我们改编了另一种标准计量经济学技术,称为去均值化,即从观测值中减去组均值,以去除组间变异并隔离组内差异(Angrist and Pischke,2009(https://arxiv.org/html/2606.03029#bib.bib36))。根据Frisch–Waugh–Lovell定理(Lovell,1963(https://arxiv.org/html/2606.03029#bib.bib34)),这类似于在回归中加入组固定效应。具体来说,我们根据文档的观测协变量值对文档进行分组,对sae激活值ZZ和yy进行残差化处理,使其相对于组均值居中。然后,我们应用逆频率加权,以确保较小的组对后续lasso回归的贡献与较大的组大致相同。通过这种处理,lasso能够更可靠地检测那些仅在特定层内呈现差异的模式,即使该层规模较小。去均值化加权-lasso不会像交互项-lasso那样遭遇二次稀疏性问题,因为去均值化步骤适用于整个特征向量,而不是创建大量的交互项。此外,由于涉及的协变量数量通常较少(例如,主题类别或时间段),分层和加权过程在计算上是高效的。我们将在合成实验中证明,这种方法在处理层不平衡问题时特别有效。

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

多层次上下文Token关系建模用于机器生成文本检测

arXiv cs.CL

本文提出了一种用于机器生成文本检测的多层次上下文Token关系建模框架,融合局部马尔可夫信息校准与全局规则支撑推理,以低计算开销提升跨大语言模型和跨领域场景下的检测性能。