基于一致性和标签解耦的可解释判别性文本表示

arXiv cs.CL 论文

摘要

本文提出了一种基于注释者间一致性和标签解耦的可解释文本表示的操作性标准,并引入了LLM辅助特征发现(LFD)方法,该方法通过跨LLM一致性筛选和残差预测增益来选择清晰、标签解耦的特征。实验表明,LFD在保持预测性能的同时,产生了更可解释的特征,并通过人工审计进行了验证。

arXiv:2605.20693v1 公告类型:新 摘要:可解释的文本表示应暴露不仅具有预测性,而且足够有意义以供独立审计人员应用的坐标。现有的判别性表示通常使用匿名嵌入方向,而概念瓶颈和LLM辅助方法则给特征附加自然语言名称,而不确保这些定义是可重现的或与目标标签不同。我们提出了一种可解释判别性文本表示的操作性标准:每个坐标应满足概念清晰性(通过独立注释者应用特征定义时经机遇校正的一致性来衡量)和标签解耦(即特征不应只是对预测目标的重述)。我们将此标准实例化为LLM辅助特征发现(LFD),这是一种迭代方法,从对比结果对立文本对中提出词汇和语义特征,使用跨LLM的Cohen's $\kappa$筛选候选特征,并通过残差保留预测增益选择特征。一个风格化分析将$\kappa$筛选与每个特征的注释噪声界联系起来,将一致性形式化为可靠性检查。在跨越七个语料库的十个文本分类任务中,LFD在匹配强文本瓶颈基线预测性能的同时,产生了明显更清晰、标签纠缠更少的特征。涉及232名评估者的人工审计显示,LFD特征在人与人以及人与LLM的一致性上均优于基线概念,并且评估者一致认为其标签泄露更少。这些结果表明,经过一致性测试且标签解耦的坐标为可解释文本分类提供了实用的可审计性标准。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:34

# 通过一致性与标签解耦实现可解释的判别性文本表示
来源: https://arxiv.org/html/2605.20693
[![[无标题图片]](https://arxiv.org/html/2605.20693v1/x1.png) [Tong Wang](https://orcid.org/0000-0001-8687-4208) 耶鲁大学管理学院 美国康涅狄格州纽黑文市 06511 tong\.wang\.tw687@yale\.edu] & [![[无标题图片]](https://arxiv.org/html/2605.20693v1/x2.png) [Yiqing Xu](https://orcid.org/0000-0003-2041-6671) 斯坦福大学政治学系 美国加利福尼亚州斯坦福市 92093 yiqingxu@stanford\.edu] & [![[无标题图片]](https://arxiv.org/html/2605.20693v1/x3.png) [Leo Yang](https://orcid.org/0000-0002-1393-5417) 香港浸会大学会计、经济与金融学系 中国香港特别行政区九龙 leoyang@hkbu\.edu\.hk]

###### 摘要

可解释的文本表示应揭示不仅具有预测性,而且对独立审计者而言足够有意义的坐标。现有的判别性表示通常使用匿名嵌入方向,而概念瓶颈和LLM辅助方法则为特征附上自然语言名称,却不确保这些定义是可复现的或与目标标签截然不同。我们为可解释的判别性文本表示提出一个操作性标准:每个坐标应满足概念清晰性(通过独立标注者应用特征定义时的一致性调整后测量,即Cohen's κ)和标签解耦(特征不应仅是预测目标的复述)。我们在大语言模型辅助特征发现(LFD)中实例化了该标准,这是一种迭代方法,通过对比性结果对立文本对提出词汇和语义特征,使用跨LLM的Cohen's κ筛选候选,并通过残差保留预测增益选择特征。一个程式化分析将κ筛选与每个特征的标注噪声界联系起来,将一致性形式化为可靠性检查。在跨越七个语料库的十个文本分类任务中,LFD在预测性能上与强大的文本瓶颈基线相当,同时产生了更清晰且标签纠缠更少的特征。由232名评分者进行的人工审计显示,LFD特征在人人一致性和人机一致性方面优于基线概念,并且评分者一致认为它们标签泄露更少。这些结果表明,经过一致性测试和标签解耦的坐标为可解释文本分类提供了一种实用的审计性标准。

## 1 引言

学习的文本表示"可解释"意味着什么?现有的坐标级方法通常做出两种妥协之一。匿名判别基——主成分分析(PCA)、稀疏探针和任务对齐嵌入——可以很好地预测,但其坐标不是分析师可以阅读或应用的命名构造。相反,概念瓶颈和大语言模型(LLM)辅助流程为特征附上自然语言名称,但通常仅事后验证可解释性:得出的定义听起来合理,但可能过于抽象、模糊或与标签纠缠,无法支持审计或干预 [13, 17, 2]。特征名称是不够的。要审计模型对某个坐标的依赖,或对该坐标进行干预,分析师必须知道该特征在新文本中可靠地识别什么。

社会科学提供了更严格的标准。研究人员对文档进行潜在构念编码(例如"攻击性语言"、"当局认为敏感的内容"、"欺骗性评论")时,会编写操作性编码手册,请独立编码者应用该手册,并报告经机会调整的评分者间一致性(Cohen's κ [5] 或 Krippendorff's α [14]),作为构念可重复测量的证据;实质性一致 [15](即社会科学中的"构念效度" [6])是科学使用的先决条件。我们将此标准引入表示学习:一个坐标只有在自然语言定义在独立标注者之间具有实质性机会调整一致性时,才是概念清晰的。

我们将此要求称为概念清晰性,但这还不够。一个特征的定义仅仅复述目标——例如,对于"这是关于体育的吗"分类器,特征定义为"提及体育术语"——易于应用但毫无解释力;瓶颈退化为重命名的分类器。因此,我们要求第二个性质:标签解耦,即特征的信息内容与目标本身不同。可解释性允许其他解读(忠实性、机械因果关系、稀疏性……);我们在表示需要满足的其他任何条件之上提出一个可证伪的核心——每个坐标必须既概念清晰又标签解耦——作为审计性标准,而非最终定义。

我们在LFD(大语言模型辅助特征发现)中实例化了这一双性质定义。在每一轮,一个"提议者"LLM 会看到一小批对比性、结果对立文本对,并要求溯因(在皮尔斯意义上,推理出最佳解释 [4])出解释该对比的命名谓词。提议通过两条路径产生:一条"词汇"路径生成表层形式特征(例如,"包含最终比赛得分"),以及一条"语义"路径生成阅读理解规则(例如,"援引法规而不提供个人叙述")。一个标注者应用该特征标注实例,然后另一个独立的"审查者"LLM 应用相同的特征定义和编码手册独立标注实例。只有来自两个独立LLM的标签向量达到足够大的跨LLM κ的候选才会保留用于进一步选择。概念清晰性通过这种跨LLM一致性筛选强制执行:一个候选定义如果不能在独立审查者之间转移,则在考虑预测增益之前就被拒绝,从而排除了Gilardi等人 [9] 和 Törnberg [33] 中单个LLM既定义又应用特征的单一LLM定义-应用闭环。相同的筛选还具有统计意义:命题1(一个程式化的逐坐标结果)将跨评分者κ与每个特征的噪声率界联系起来,将不可重复特征不可靠监督的直觉形式化。标签解耦通过结构得到鼓励:对比性小批量询问区分结果对立文本的因素,推动提议朝向局部线索而非标签复述,并且残差增益选择仅当特征解释了先前特征未捕获的保留信号时才允许该特征。

#### 贡献。

本文的主要贡献是学习的文本表示可解释性的一个操作性定义。我们认为一个可解释的坐标应满足两个可测试性质:概念清晰性和标签解耦。LFD 是该定义的一个实例化:它使用跨LLM一致性筛选清晰性,并使用对比性残差选择来阻止标签复述。我们的理论结果是一个程式化的噪声率界,将κ筛选作为每个特征的可靠性检查,而非多元泛化保证。实证上,我们在跨越七个语料库的十个文本分类任务上进行了广泛实验,并用人类审计补充自动评估,其中独立评分者对每个LFD和文本瓶颈模型(TBM)特征的定义清晰性和标签解耦进行评分,验证了所提出的性质在实践中成立。

## 2 相关工作

对于文本分类,两个期望对学习的表示施加拉力:坐标应携带结果的判别性信号("有用"),且每个坐标应携带分析师可以阅读和应用于新文本的定义("可审计")。现有方法占据一个2×2网格(表1);大多数最多实现其中之一。

表1:文本表示方法的2×2组织。
#### 匿名或非判别性坐标。

对结果加权矩的PCA、线性和稀疏探针 [2, 7]、微调编码器以及任务向量算术 [11, 27, 1, 21] 在预训练表示中恢复任务对齐方向。这些坐标是嵌入维度的线性组合,不携带人类可读标签:强预测器,弱审计面。它们是判别性的但匿名的。另一方面,带有稀疏线性模型的词袋 [32]、关键词词典 [16, 29] 和主题模型 [3, 31, 10] 产生具有人类可读描述的坐标,但每个在坐标构建阶段都是无监督的——这些特征索引语言结构而非结果变异,并且仅偶然与结果对齐。

#### 可解释判别性坐标:概念瓶颈模型。

概念瓶颈模型(CBM)[13] 通过命名概念层进行预测。近期工作使用LLM生成概念集:在视觉中,LaBo [34]、无标签CBM [24] 和事后CBM [35];最接近的文本侧类比是TBM [17],其中单个LLM在错误分类示例上迭代提出概念,测量它们,然后线性头部进行预测。我们在结构上有所不同:*提议者和测量者必须是不同的LLM,并且仅当跨LLM κ ≥ 0.70 时才保留候选*。CBM文献将信息泄露和不忠实概念测量标记为核心威胁 [18, 30];单一模型闭环是它们的结构性来源。我们的筛选打破了那个特定闭环,带来两个后果:(i) 头部可以是任何 φ 可测量的函数,因为审计面是概念层;(ii) 可解释性在训练期间即可对每个特征进行测试,而非事后。第二个结构性区别是*何时*查询LLM。TBM、LaBo和无标签CBM在"LLM作为分类器"机制中运行:推理时每个概念值需要重新查询LLM,因此瓶颈包含K个子分类,每个与原始标签一样不透明。LFD的双路径设计(正则确定性 + 跨LLM验证的标注规范)转向"LLM作为解释者"机制:LLM在设计时贡献,推理是文本的纯函数。跨LLM κ筛选是区分两种机制的操作性测试——一个其值是提议者整体判断的特征,无法在没有运行相同LLM的情况下被独立评分者以高κ复现。

## 3 问题设置与方法

### 3.1 可解释判别性表示

设 { (xi, yi) } i=1^N 为带标签文本,其中 yi ∈ {0, 1}。一个*命名特征*是一对 f = (φf, ρf),其中 φf : X → {0, 1} 是一个标注函数,ρf 是一个自然语言操作性定义,足以让独立标注者一致地应用 φf。每个被接受的特征携带一个结构化的编码手册记录。

###### 定义 1(操作性可解释性标准)。

可解释性允许许多解读(忠实性、机械因果关系、稀疏性、可模拟性……)。我们提出*一个*可证伪的预先标准,任何可解释文本分类特征按理应满足,同时将更广泛的问题留待开放。给定阈值 κ* ∈ [0, 1] 和 τ ∈ [0, 1],我们说命名特征 f = (φf, ρf) 满足我们的*操作性可解释性标准*当且仅当:

1. (i) 概念清晰性。κ(f) ≥ κ*,其中 κ(f) 是仅给定 ρf 的两个独立标注者之间的 Cohen's κ。
2. (ii) 标签解耦。在保留样本上 |ρ(f, y)| ≤ τ,其中 ρ(f, y) 是特征标注向量与标签向量之间的中心化余弦(皮尔逊相关)。

第4.2节报告了(ii)之外的两个补充诊断——定义级到标签问题的余弦以及一个人工解耦评分表——这些在定义层面而非标注向量层面探查标签纠缠。

###### 定义 2(可解释判别性表示)。

一组命名特征 F = { f1, ..., fK } 是一个*可解释判别性表示*当且仅当每个 fk 在定义1意义上是可解释的,并且 F 是*判别性的*:其选择受到 {yi} 的监督,并且每个 fk 对基于其余基底的y的保留预测准确性有正向贡献。

本文中我们选择 κ* = 0.70 以匹配 Landis and Koch [15] 的实质性一致性标准。我们*有意地*设置 τ = 1——即禁用解耦门控——以测试 LFD 的结构设计本身(匹配的对比性小批量、对比性溯因推理、残差增益选择)是否在没有事后过滤器的情况下产生标签解耦的特征。实证上答案是肯定的:所有被接受特征中最大实现 |ρ| = 0.59(第4.2节,贷款申请的 standard-template 正则),自然低于实质性一致性阈值 τ = 0.60。实践中 τ 充当每个特征的*粒度*拨盘:较紧的 τ 将基推向狭窄的、分解性的子特征,这些子特征可乘性组合;较松的 τ 允许更宽泛的、与标签相关的概念(极限情况下,近似标签本身的TBM风格坐标)。

#### 审计性。

满足定义2的表示在分析师或监管者所需的操作意义上是可审计的:每个坐标携带一个固定的自然语言规则,任何后续评分者无需访问模型状态、训练代码或流程内部结构即可应用于新文档。这是下游审查、可争执性和可迁移性的先决条件。

### 3.2 LFD

LFD发现一个可解释判别性表示。

相似文章

应用于大语言模型的可解释性研究:对比分析

arXiv cs.CL

一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。

TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。