基于文本的因果推断方法:解析影响在线评价评分的多维因素

arXiv cs.CL 论文

摘要

本文提出了一种基于文本的因果推断方法,通过改进的 CausalBERT 模型,解析各独立维度(如学校管理、学业表现)对在线评价总体评分的影响,并在超过 60 万条美国 K-12 学校评价数据上进行了验证。主要改进包括:温度缩放、超参数优化以及可解释性方法,以减少混淆偏差。

arXiv:2606.04286v1 公告类型:新论文 摘要:在线评价为了解产品或服务各方面的感知质量提供了宝贵信息。基于方面的情感分析虽已聚焦于从评价中提取这些方面,但对各方面如何影响整体感知的研究仍相对不足。由于各方面之间存在相关性,孤立分析每个方面的影响尤为困难。本文提出一种基于文本因果分析最新进展的方法,具体采用 CausalBERT 模型,以解析各因素对评价总体评分的影响。我们对 CausalBERT 进行了三项关键改进:通过温度缩放获得更准确的处理分配估计;通过超参数优化减少混淆变量过度调整;以及引入可解释性方法对所发现的混淆变量进行表征。在本研究中,我们将评价中的文本提及作为现实属性的代理变量。我们在超过 60 万条美国 K-12 学校真实及半合成评价数据上验证了该方法。研究结果表明,所提改进能够产生更可靠的估计结果,且学校管理的感知质量与基准测试表现是影响学校整体评分的重要驱动因素。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:13

# 使用基于文本的因果推断剥离影响在线评论评分的因素
来源:https://arxiv.org/html/2606.04286

Aron Culotta、Nicholas Mattei
计算机科学系,杜兰大学,美国路易斯安那州新奥尔良

###### 摘要

在线评论为了解产品或服务各方面的感知质量提供了宝贵的洞察。尽管基于方面的情感分析专注于从评论中提取这些方面,但关于各方面对整体感知影响程度的研究仍相对匮乏。由于各方面之间存在相关性,孤立每个方面的效应极具挑战性。本文介绍了一种基于文本因果分析最新进展(尤其是 CausalBERT)的方法,用于剥离各因素对总体评论评分的影响。我们通过三项关键改进对 CausalBERT 进行了增强:使用温度缩放以获得更好校准的处理分配估计;通过超参数优化减少混淆因素的过度调整;以及采用可解释性方法对发现的混淆因素进行描述。本工作将评论中的文字提及作为现实属性的代理变量。我们在来自超过 60 万条美国 K-12 学校评论的真实数据和半合成数据上验证了该方法。研究发现,所提出的改进能带来更可靠的估计,且对学校管理人员的评价和基准测试表现是影响学校总体评分的重要驱动因素。

使用基于文本的因果推断剥离影响在线评论评分的因素

## 1 引言

理解文本评论中提及的特定方面对产品或服务总体评分的影响,是许多行业中一项复杂而重要的任务。例如,在教育领域,关于学业表现或设施质量的反馈如何影响学校的总体评分?精确量化这种影响有助于企业识别关键改进领域。传统方法包括基于方面的情感分析——该方法提取与预定义方面相关的情感 Zhang et al.(2022 (https://arxiv.org/html/2606.04286#bib.bib26));Kandhro et al.(2024 (https://arxiv.org/html/2606.04286#bib.bib27))——以及测量特定词汇与总体评分之间相关性的探索性分析 Geetha et al.(2017 (https://arxiv.org/html/2606.04286#bib.bib28))。然而,这些方法通常无法控制混淆变量,从而导致结果偏差。

例如,考虑一所经常因学业表现而受到称赞的学校,其评论中提到了优秀的课程和出色的教师。传统分析可能会将这些积极属性直接与学校的高评分相关联。然而,如果这些评论还频繁提到丰富的课外活动机会或较高的家长参与度,这可能意味着该校的高评分反映的是其社会经济优势,而非单纯的教育质量。忽视此类因素可能导致对教育质量在整体感知中真实影响的错误评估。

我们的目标是估计评论中提及的各方面对总体评分的影响。为此,我们开发了一个因果推断框架,用于控制文本中的混淆变量。框架首先从与实体相关的文本中识别感兴趣的方面,例如学校评论是否频繁称赞设施质量。然后,我们将该实体中除方面相关文本以外的剩余文本作为协变量,用于分析该实体的总体评分。在此框架中,文本内容被视为可能影响实体评分的现实因素的代理变量。这种方法有助于控制与实体相关的混淆因素,从而孤立特定方面对总体评分的处理效应。

##### 贡献

我们应用 CausalBERT Veitch et al.(2020 (https://arxiv.org/html/2606.04286#bib.bib3))来估计特定话题对总体评论评分的影响,从其他文本元素中剥离真实影响。我们通过以下方式对 CausalBERT 进行了增强:(i)集成温度缩放以校准倾向得分;(ii)优化损失函数中的关键超参数,该参数在处理预测与结果预测之间取得平衡,从而减少对混淆因素的过度调整;(iii)采用可解释性方法对发现的混淆因素进行描述。我们使用来自 GreatSchools.org 的 60 万条美国 K-12 学校评论验证了该方法,发现学校管理人员问题和学业表现是影响学校感知质量的重要驱动因素。

## 2 方法

我们应用潜在结果框架 Neyman(1923 (https://arxiv.org/html/2606.04286#bib.bib2)),对每个主体(学校)$i$ 观测一个元组 $(X_i, Y_i, T_i)$,其中 $X_i \in \mathbb{R}^p$ 表示文本协变量,$Y_i \in \mathbb{R}$ 是连续结果(平均评论评分),$T_i \in \{0, 1\}$ 是处理分配(评论中某话题的存在与否)。潜在结果 $Y_i(0)$ 和 $Y_i(1)$ 分别表示对照(无处理)和处理情景下的结果。结果 $Y_i$ 定义为 $Y_i = T_i \cdot Y_i(1) + (1 - T_i) \cdot Y_i(0)$。

目标是估计平均处理效应(ATE)$\tau$,它量化了由处理引起的结果期望差异:

$$\tau = \mathbb{E}[Y_i(1) - Y_i(0)] = \mathbb{E}[Y_i(1)] - \mathbb{E}[Y_i(0)] \tag{1}$$

为估计 ATE,我们考虑若干核心假设和估计量:**可忽略性**假设处理分配 $T_i$ 独立于潜在结果,这一关键条件允许直接使用朴素无偏估计量($\hat{\tau}_{unadjust}$):

$$\hat{\tau}_{unadjust} = \mathbb{E}[Y_i | T_i = 1] - \mathbb{E}[Y_i | T_i = 0] \tag{2}$$

然而,当处理分配与混淆因素相关时,该假设往往不现实。因此,我们进一步假设**条件可忽略性**,即在给定协变量 $X_i$ 的条件下,处理分配 $T_i$ 独立于潜在结果。若记 $\mathbb{E}[Y_i | X_i = x, T_i = 1]$ 为 $Q(1, x)$,$\mathbb{E}[Y_i | X_i = x, T_i = 0]$ 为 $Q(0, x)$,则 ATE 可通过以下公式估计:

$$\hat{\tau}_Q = \frac{1}{n} \sum_{i=1}^{n} \left(\hat{Q}(1, X_i) - \hat{Q}(0, X_i)\right) \tag{3}$$

其中 $\hat{Q}(T_i, X_i)$ 是给定处理状态和协变量的估计响应值。**正值性**假设每个主体接受处理的概率非零($0 < P(T_i = 1 | X_i) < 1$),这对于可靠的因果推断至关重要。

在上述框架下,我们使用 CausalBERT 估计 ATE。

### 2.1 CausalBERT

CausalBERT Veitch et al.(2020 (https://arxiv.org/html/2606.04286#bib.bib3))是一种文本驱动的因果推断方法,它将 BERT 的文本表示用于处理分配和潜在结果的联合建模,同时控制文本混淆因素。该模型以文本 $X_i$ 作为输入,通过共享的 BERT 编码器对处理 $T_i$ 和结果 $Y_i$ 进行联合预测,并使用以下损失函数进行优化:

$$\mathcal{L} = \alpha \cdot \mathcal{L}_T + (1 - \alpha) \cdot \mathcal{L}_Y \tag{4}$$

其中 $\mathcal{L}_T$ 为处理预测损失,$\mathcal{L}_Y$ 为结果预测损失,$\alpha \in [0, 1]$ 为权衡两者的超参数。

倾向得分 $g = P(T_i = 1 | X_i)$ 是 CausalBERT 的核心,通过处理预测头输出得到,用于计算逆概率加权(IPW)估计量:

$$\hat{\tau}_{IPW} = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{T_i Y_i}{\hat{g}_i} - \frac{(1 - T_i) Y_i}{1 - \hat{g}_i}\right) \tag{5}$$

以及增强逆概率加权(AIPW)估计量:

$$\hat{\tau}_{AIPW} = \frac{1}{n} \sum_{i=1}^{n} \left(\hat{Q}(1, X_i) - \hat{Q}(0, X_i) + \frac{T_i(Y_i - \hat{Q}(1, X_i))}{\hat{g}_i} - \frac{(1 - T_i)(Y_i - \hat{Q}(0, X_i))}{1 - \hat{g}_i}\right) \tag{6}$$

### 2.2 基线方法

为评估 CausalBERT 在处理文本混淆因素方面的有效性,我们设置了以下基线:

- **朴素估计量**($\hat{\tau}_{unadjust}$):不进行混淆控制,直接比较处理组和对照组的平均结果。
- **线性回归**:使用词袋特征作为协变量,通过线性回归进行混淆控制。
- **DistilBERT**:使用 DistilBERT 提取文本特征,代替 CausalBERT 进行处理和结果预测,但不进行联合训练。

### 2.3 温度缩放

我们引入温度缩放 Guo et al.(2017 (https://arxiv.org/html/2606.04286#bib.bib31))以改善倾向得分的校准。该方法通过引入温度参数 $M > 0$ 调整倾向得分预测的置信水平,有助于使预测概率与实际置信水平保持一致,从而降低极端倾向得分对后续估计(如 IPW 或 AIPW)产生负面影响的风险。

在 CausalBERT 中,对于来自处理预测分支的给定 logit 向量 $z$,调整后的置信度预测为:

$$\hat{g}_{scaled} = \max_k \sigma_{\text{SM}}\left(\frac{z_k}{M}\right)$$

其中 $\sigma_{\text{SM}}$ 表示 softmax 函数,$k$ 表示类别索引。温度 $M$(其中 $M > 1$)"软化"了概率,增加了输出熵,使类别概率更加均匀。相反,当 $M$ 趋近于零时,softmax 概率收敛为点质量,倾向于更自信的预测。

为确定 $M$,我们在保留验证集上最小化倾向得分预测的负对数似然(NLL):

$$M^* = \arg\min_M \text{NLL}\left(\frac{z}{M}; t\right)$$

其中 $t$ 为真实处理标签。调整 $M$ 不会改变预测类别——它仅通过细化 softmax 概率来更好地表示处理分配预测中的内在不确定性。

### 2.4 减轻过度调整

对潜在混淆因素的过度调整可能导致有偏的效应估计 VanderWeele(2009 (https://arxiv.org/html/2606.04286#bib.bib33))。在 CausalBERT 目标函数中,$\alpha$ 决定了处理预测头的重要性权重,进而影响混淆因素调整的程度。我们建议根据数据中混淆程度的估计来设置 $\alpha$。

为估计混淆程度,我们使用处理预测准确率作为信号。该方法假设较低的处理分类准确率通常表明混淆较弱。在这种情况下,可以增大 $\alpha$,从而加强模型对处理分类的关注,而不会因混淆因素引入实质性偏差。通过将 $\alpha$ 与观测到的处理准确率相关联,我们采用经验方法调整 $\alpha$,以在不同混淆场景下提升因果效应估计的质量。我们将在第 4 节(https://arxiv.org/html/2606.04286#S4)中进一步探讨这一问题。

### 2.5 解释 CausalBERT

由于真实因果效应很少已知,拥有定性方法来评估 CausalBERT 的有效性至关重要。我们探索了两种定性方法:**CLS 对比分析**和**集成梯度**。

首先,基于深度学习的可解释性方法,我们的 **CLS 对比分析**量化了 CLS 词元的聚合注意力,并将微调后的 CausalBERT 与基线 DistilBERT 进行比较,以确定微调对词汇重要性的影响。我们分析对 CLS 词元有显著影响的词元(排除停用词和标点),采用两种策略。**通用高贡献词元**按注意力得分对词元排序,为每个文档选择最具影响力的词元;**最大子数组连续贡献**识别对 CLS 词元具有最大影响的连续词元子数组。通过在所有文档中聚合这些词元,我们使用 $A \setminus B$ 比较 CausalBERT($A$,通过设计控制混淆效应)与 DistilBERT($B$,不控制混淆效应)之间最具影响力词元的变化,评估微调引起的注意力变化。此外,在下面的半合成实验中,我们评估 $A \setminus B$ 中与我们注入数据的混淆变量相对应的词元比例,作为 CausalBERT 能否恰当发现混淆因素的额外验证。

其次,我们采用**集成梯度(IG)** Sundararajan et al.(2017 (https://arxiv.org/html/2606.04286#bib.bib12))——一种将深度学习模型预测归因于其输入特征的可解释性技术。对于 CausalBERT 的每个输出分量(处理和结果),IG 识别显著增大或减小模型预测的词元。通过跨实例聚合,我们汇编出每个预测任务中最具影响力的词元。我们记 $g^+$ 和 $g^-$ 分别为使倾向得分预测增大和减小的顶部词元,$Q_0^+$ 和 $Q_1^+$ 描述使对照组和处理组结果预测增大的顶部词元,$Q_0^-$ 和 $Q_1^-$ 则为使这些预测减小的词元。每个类别中的词元都关联一个量化其对模型输出影响的贡献权重,这些权重在各自列表内进行归一化,以突出每个词汇的相对重要性。

## 3 实验

我们利用真实评论数据和半合成评论数据,对 CausalBERT 及所提改进方法的能力进行实证检验,重点关注以下问题:

**RQ1**:CausalBERT 的性能如何随混淆因素强度变化?
**RQ2**:温度缩放对处理效应估计有何影响?
**RQ3**:损失函数中超参数 $\alpha$ 如何影响过度调整,其最优值与处理预测准确率有何关联?
**RQ4**:可解释性方法在揭示 CausalBERT 发现的混淆因素方面有多有效?
**RQ5**:在真实数据中,"欺凌"和"管理"等教育方面因素在多大程度上影响学校总体评分?

##### 数据集

我们分析了来自 GreatSchools.org[^2] 的 677,210 条评论,涵盖 2002 至 2019 年间美国 83,795 所公立、私立和特许学校。我们研究了"欺凌"、"学业表现"、"管理"、"课外活动"和"课程"等学校相关话题的影响,每个话题由先前工作 Harris et al.(2022 (https://arxiv.org/html/2606.04286#bib.bib29));Gillani et al.(2021 (https://arxiv.org/html/2606.04286#bib.bib34))所建立的关键词列表定义(附录 A.6 (https://arxiv.org/html/2606.04286#A1.SS6))。

[^2]: 该数据集由我们的合作方 GreatSchools 提供,不对外公开。

对于每个话题,我们首先将评论分为讨论该话题和未讨论该话题两类。对于结果变量,我们通过计算各州特定 z 分数对评论评分进行归一化,并在所选时间段内对每所学校的这些分数取平均。因此,结果值以标准单位表示。

对于处理分配,我们根据评论中讨论话题的性质采用不同方法。对于"管理"等中性话题,处理由对该话题的情感决定:若所有相关评论均表达正面情感,则该实体被视为已处理($T=1$);若所有评论均为负面,则视为未处理($T=0$)。对管理存在正负混合评论的学校被排除在分析之外,以保持清晰的处理区分。对于"欺凌"这一负面话题,若提及该话题则处理为 1,否则为 0。

在我们的框架中,"欺凌"任务旨在评估欺凌现象的存在如何影响学校的总体评分。对于"管理"等其他话题,我们将涉及管理的文本情感作为现实管理质量的代理变量,并衡量该因素的情感对学校总体评分的影响。我们的因果路径假设多种学校属性可影响总体评分,因此我们通过控制其他因素来孤立特定方面的效应。例如,在研究欺凌问题时,我们将其与其他可能同样降低评分的负面条件(如管理不善)区分开来。每个话题涉及 3,900 至 13,300 所学校;更详细的统计数据(例如每所学校的平均评论总数)见第 A.1 节(https://arxiv.org/html/2606.04286#A1.SS1)。

##### 半合成数据设置

首先,我们采用半合成评估框架 Weld et al.(2022 (https://arxiv.org/html/2606.04286#bib.bib4))对 CausalBERT 在欺凌话题上的处理效应估计能力进行评估。我们通过向部分评论中注入与学业挑战话题相关的文本(相关词汇见第 A.2 节 (https://arxiv.org/html/2606.04286#A1.SS2)),模拟一个二元混淆因素 $C_i \in \{1, 2\}$。类别 1 的学校接受这些注入句子,类别 2 的学校则不接受。

为操控 ATE,我们通过定义基于处理状态的两个结果模型来改变真实 ATE:对于类别 1,当处理 $T=1$ 时结果建模为 $Y \sim \mathcal{N}(u_2, 0.3)$,当 $T=0$ 时建模为 $Y \sim \mathcal{N}(u_1, 0.3)$;类别 2 保持均一效应 $Y \sim \mathcal{N}(u_2, 0.3)$,表示文本共现不产生处理效应。

相似文章

面向威胁主体分析的日本网络评论作者归属基础研究

arXiv cs.CL

这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers

CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。