有质量却无用处:LLM生成的XAI叙述作为信任启发式而非决策辅助工具

arXiv cs.CL 论文

摘要

本文研究了由LLM从XAI输出生成的高质量自然语言解释(NLEs)是否真的能改善任务性能,发现它们并未提高准确性,反而夸大了信心,揭示了质量-实用性差距。

arXiv:2605.26770v1 公告类型:新 摘要:先前的研究表明,大型语言模型(LLM)可以将可解释人工智能(XAI)的输出转化为自然语言解释(NLEs),这些解释在合理性、连贯性和可理解性等质量指标上得分很高。但解释质量是否转化为实际实用性?我们通过在时间序列能源预测领域进行五项对照实验(60个测试实例,共2,730个判断)来研究这一问题,每项实验都操作了XAI文献中研究的实用性的一个不同方面。在保持NLE质量恒定于先前析因研究所确立的高水平的情况下,我们发现NLEs在五项任务中均未提高任务准确性,反而膨胀了自我报告的信心。一个安慰剂对照表明,这种信心提升是由文本存在而非内容驱动的。在分布外检测任务中,NLEs降低了LLM评判者标记不可靠预测的能力,提供了掩盖模型失败的虚假安慰。我们将这些发现概括为“质量-实用性差距”,并认为对XAI到NLE流水线的评估必须超越文本质量指标,延伸到下游任务性能。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:10

# 质量有余,实用不足:LLM生成的XAI叙述作为信任启发而非决策辅助  
来源:https://arxiv.org/html/2605.26770  

Fabian Lukassen¹,Jan Herrmann²,Christoph Weisser³,Alexander Silbersdorff¹,Benjamin Saefken⁴,Thomas Kneib¹  
¹哥廷根大学 ²巴斯夫欧洲公司 ³比勒费尔德应用技术大学 ⁴克劳斯塔尔工业大学  
fabian\.lukassen@stud\.uni\-goettingen\.de, jan\.herrmann@basf\.com, christoph\.weisser@hsbi\.de, asilbersdorff@uni\-goettingen\.de, benjamin\.saefken@tu\-clausthal\.de, tkneib@uni\-goettingen\.de  

###### 摘要  
先前的研究表明,大型语言模型(LLM)能够将可解释人工智能(XAI)输出转化为自然语言解释(NLE),这些解释在可信度、连贯性和可理解性等质量指标上得分很高。但解释质量是否转化为实际有用性?我们在时间序列能源预测领域通过五项对照实验(60个测试实例,2730个判断)对此展开研究,每项实验分别针对XAI文献中研究的不同有用性维度。在保持NLE质量恒定于先前因子研究确定的高水平的前提下,我们发现NLE在五项任务上均未提升任务准确率,却虚增了自我报告的置信度。安慰剂对照显示,这种置信度提升是由文本存在感而非内容驱动。在分布外检测任务中,NLE降低了LLM评判者标记不可靠预测的能力,提供了掩盖模型失败的虚假安慰。我们将这些发现归纳为“质量-有用性差距”,并主张XAI到NLE管道的评估必须从文本质量指标扩展到下游任务表现。¹¹代码和数据URL(https://github.com/fabian-lu/quality-usefulness-gap)。  

## 1 引言  

事后XAI方法(如SHAP(Lundberg and Lee, 2017 (https://arxiv.org/html/2605.26770#bib.bib37)))生成的特征归因输出预设了统计素养,而目标受众——领域专家、决策者、监管者——通常缺乏这种素养(Arrieta et al., 2020 (https://arxiv.org/html/2605.26770#bib.bib3); Miller, 2019 (https://arxiv.org/html/2605.26770#bib.bib39))。由大型语言模型(LLM)生成的自然语言解释(NLE)将这些输出转化为非专家可理解的散文。现在越来越多的研究构建这样的“从XAI到NLE”管道,覆盖表格(Martens et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib38); Zytek et al., 2024b (https://arxiv.org/html/2605.26770#bib.bib57); Dwiyanti et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib16); Swamy et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib52))、图(Cedro and Martens, 2025 (https://arxiv.org/html/2605.26770#bib.bib11))和时间序列(Aksu et al., 2024 (https://arxiv.org/html/2605.26770#bib.bib2))设置,均报告持续的高质量得分。最近的因子研究(Lukassen et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib35))在大规模上证实了这一点——跨越4个ML模型、3种XAI条件、3个LLM和8种提示策略(660个NLE),G-Eval得分达到4.0–4.8/5。但质量在那里仅基于文本制品的属性来衡量:可信度、连贯性、可理解性。  

参看图注  

图1:LLM将预测和XAI归因叙述成高质量的NLE。我们测试此类NEL是否有助于下游决策。  

然而,质量并非效用。这些NLE管道所依赖的可视化XAI输出——特征重要性图、显著性图、归因图——的研究一再表明,它们往往无法改善下游决策,有时甚至造成损害(Bansal et al., 2021 (https://arxiv.org/html/2605.26770#bib.bib5); Jesus et al., 2021 (https://arxiv.org/html/2605.26770#bib.bib29); Schemmer et al., 2022 (https://arxiv.org/html/2605.26770#bib.bib46); Buçinca et al., 2021 (https://arxiv.org/html/2605.26770#bib.bib9))。这些工作区分了解释*质量*(文本制品属性;Nauta et al., 2023 (https://arxiv.org/html/2605.26770#bib.bib40))和*有用性*(对下游决策的可测量影响——可模拟性、任务表现、信任校准;Doshi-Velez and Kim, 2017 (https://arxiv.org/html/2605.26770#bib.bib15); Jacovi et al., 2021 (https://arxiv.org/html/2605.26770#bib.bib28))。这一区分尚未被延续到LLM生成的NLE上。我们对此进行测试。在保持NLE质量恒定于Lukassen等人(2025 (https://arxiv.org/html/2605.26770#bib.bib35))确立的水平的前提下,我们在家庭能源预测任务上运行了五项对照实验,每项实验分别针对XAI文献中研究的不同有用性维度。在2730个LLM评判者的判断中,NLE在五项任务上均未提升准确率;在最关键的场景——检测分布外输入——它们似乎*降低*了评判者标记不可靠预测的能力。我们将这种模式归纳为“质量-有用性差距”。  

#### 贡献:  
(1)关于LLM生成的XAI输出NLE中存在质量-有用性差距的经验证据。  
(2)诊断该模式背后的两种虚假安慰机制:由文本存在感而非内容驱动的*置信度虚增*(实验E1、E2),以及异常输入的*合理化*(E5)。  
(3)这些共同支撑了一个更广泛的论点:NLE评估必须像标准XAI评估一样,超越质量指标,转向基于任务的有用性度量。  

## 2 相关工作  

#### 事后XAI。  
SHAP(Lundberg and Lee, 2017 (https://arxiv.org/html/2605.26770#bib.bib37))——本文全程使用的归因方法——将每个特征的贡献基于合作博弈论中的Shapley值:对于具有特征集 $\mathcal{F}$ 的预测 $f(x)$,每个特征获得  
$$\phi_i = \sum_{S \subseteq \mathcal{F} \setminus \{i\}} \frac{|S|!(|\mathcal{F}|-|S|-1)!}{|\mathcal{F}|!}\,[f(x_{S \cup \{i\}}) - f(x_S)],$$  
满足 $f(x) = \phi_0 + \sum_i \phi_i$;TreeSHAP(Lundberg et al., 2020 (https://arxiv.org/html/2605.26770#bib.bib36))以多项式时间精确计算树模型下的该值。SHAP被广泛采用(Guidotti et al., 2018 (https://arxiv.org/html/2605.26770#bib.bib22)),但需要统计熟练度才能解读,尤其是在具有自回归滞后的时间序列设置中(Theissler et al., 2022 (https://arxiv.org/html/2605.26770#bib.bib53); Zytek et al., 2024a (https://arxiv.org/html/2605.26770#bib.bib56))。  

#### 标准XAI中的质量无效用。  
越来越多的文献发现,可视化XAI输出常常不能改善决策,有时甚至有害。Bansal等人(2021 (https://arxiv.org/html/2605.26770#bib.bib5))报告称,解释增加了对错误AI建议的接受度,却没有提升团队表现;Jesus等人(2021 (https://arxiv.org/html/2605.26770#bib.bib29))发现LIME/SHAP导致比原始数据更低的准确率;Im等人(2023 (https://arxiv.org/html/2605.26770#bib.bib27))将其扩展到准确显著性;Schemmer等人(2022 (https://arxiv.org/html/2605.26770#bib.bib46))表明解释不会产生适当的依赖。其机制是过度依赖(Buçinca et al., 2021 (https://arxiv.org/html/2605.26770#bib.bib9); Bucinca et al., 2020 (https://arxiv.org/html/2605.26770#bib.bib8); Chen et al., 2023 (https://arxiv.org/html/2605.26770#bib.bib13))。在安慰剂解释线索中,Shymanski等人(2025a (https://arxiv.org/html/2605.26770#bib.bib47), b (https://arxiv.org/html/2605.26770#bib.bib48))表明用户对安慰剂解释和可操作解释的满意度评价相同;Ajwani等人(2024 (https://arxiv.org/html/2605.26770#bib.bib1))和Fan等人(2026 (https://arxiv.org/html/2605.26770#bib.bib17))记录了LLM解释如何通过流畅性和框架在错误输出中维持信任;Spillner等人(2026 (https://arxiv.org/html/2605.26770#bib.bib50))表明自我报告的信任与行为依赖分离。*质量*(Nauta et al., 2023 (https://arxiv.org/html/2605.26770#bib.bib40); Naveed et al., 2024 (https://arxiv.org/html/2605.26770#bib.bib41))和*有用性*(Doshi-Velez and Kim, 2017 (https://arxiv.org/html/2605.26770#bib.bib15); Jacovi et al., 2021 (https://arxiv.org/html/2605.26770#bib.bib28))这些构念被明确区分,但很少被共同测量。  

#### LLM从XAI输出生成的NLE。  
最近的系统将SHAP归因转换为散文:XAIstories(Martens et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib38))、Explingo(Zytek et al., 2024b (https://arxiv.org/html/2605.26770#bib.bib57))、ContextualSHAP(Dwiyanti et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib16))、用于图模型的GraphXAIN(Cedro and Martens, 2025 (https://arxiv.org/html/2605.26770#bib.bib11))、基于社会科学的iLLuMinaTE(Swamy et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib52))以及针对时间序列的XForecast(Aksu et al., 2024 (https://arxiv.org/html/2605.26770#bib.bib2))。所有系统都仅通过质量代理——主观评分、理解调查、自动评分——进行评估。Lukassen等人(2025 (https://arxiv.org/html/2605.26770#bib.bib35))遵循相同惯例,在因子设计中达到4–5/5的质量。高NLE质量是否转化为下游有用性尚未测试。  

#### LLM作为评判者。  
LLM评判者现在是开放生成评估的标准方法,尤其在BLEU/ROUGE失效的场景(Liu et al., 2023 (https://arxiv.org/html/2605.26770#bib.bib34); Zheng et al., 2023 (https://arxiv.org/html/2605.26770#bib.bib55); Gu et al., 2025 (https://arxiv.org/html/2605.26770#bib.bib20)),尽管存在已记录的系统性偏差——位置偏差、冗长偏差和自我偏好(评判者偏爱来自自身模型族的输出)(Zheng et al., 2023 (https://arxiv.org/html/2605.26770#bib.bib55); Gu et al., 2024 (https://arxiv.org/html/2605.26770#bib.bib21))。Liu等人(2023 (https://arxiv.org/html/2605.26770#bib.bib34))引入了G-Eval,我们在下文中改编了其思维链协议。在XAI领域,Bona等人(2024 (https://arxiv.org/html/2605.26770#bib.bib7))表明LLM评判者在粗粒度质量上能重复人类结论,但在数值验证上较弱。  

#### 定位。  
我们探究为可视化XAI记录的质量与有用性差距是否也适用于LLM生成的NLE。在保持NLE质量恒定于Lukassen等人(2025 (https://arxiv.org/html/2605.26770#bib.bib35))确立的水平的前提下,我们在受控条件下测试五个不同的有用性构念。  

## 3 方法学  

我们基于Lukassen等人(2025 (https://arxiv.org/html/2605.26770#bib.bib35))的预测到NLE管道,这里固定为该研究识别出的最高性能和最有效的配置:XGBoost + SHAP TreeExplainer + 零样本提示,以GPT-4o和DeepSeek-R1作为生成器和评判者。保持质量恒定于该研究所确立的水平,使得NLE有用性成为唯一感兴趣的变量。  

算法1 NLE生成与评估  
1: 测试集 $\mathcal{D}_{\text{test}}$ ($N=60$),XGBoost $f$,SHAP解释器 $\chi$  
2: 生成器 $\mathcal{G}=\{\text{GPT-4o, DeepSeek-R1}\}$  
3: 评判者 $\mathcal{J}=\{\text{GPT-4o, DeepSeek-R1}\}$  
4: 判断语料库 $\mathcal{R}$  
5: // 第1阶段:NLE生成(所有实验共享)  
6: **for** 每个实例 $\mathbf{x}_t \in \mathcal{D}_{\text{test}}$ **do**  
7:  $\hat{y}_t \leftarrow f(\mathbf{x}_t)$; $\boldsymbol{\phi}_t \leftarrow \chi(f, \mathbf{x}_t)$  
8: **for** 每个生成器 $g \in \mathcal{G}$ **do**  
9: $E_t^g \leftarrow \textsc{ZeroShot}(g; \mathbf{x}_t, \hat{y}_t, \boldsymbol{\phi}_t)$  
10: **end for**  
11: **end for**  
12: // 第2阶段:评估(按实验进行)  
13: **for** 实验 $e$,条件 $c \in \mathcal{C}_e$,实例 $\mathbf{x}_t$,评判者 $j \in \mathcal{J}$ **do**  
14: 将 $\textsc{Judge}(j; \textsc{BuildPrompt}(\mathbf{x}_t, c, E_t))$ 存储到 $\mathcal{R}$  
15: **end for**  
16: **返回** $\mathcal{R}$  

算法1 (https://arxiv.org/html/2605.26770#alg1) 给出了所有五个实验共享的两阶段设计概览。第1阶段一次性生成120个NLE(60个实例 × 2个生成器),在各实验间复用。第2阶段运行五项下游任务实验,每项实验消融 $\{\text{features, SHAP, metrics, NLE}\}$ 的子集——即条件集 $\mathcal{C}_e$——以隔离NLE的边际贡献;图3 (https://arxiv.org/html/2605.26770#S3.F3) 可视化了这一框架,各任务及条件 $\mathcal{C}_e$ 将在第4–8节中介绍。语料库 $\mathcal{R}$ 包含2730个判断,通过第3.3节的混合效应模型进行分析。  

参看图注  

图2:XGBoost一步前向预测 vs. 实际周耗电量(kWh)。灰色:训练期;彩色:测试集。  

E1 接近度  
误差桶? small med large very large  
E2 安慰剂  
误差桶? small med large very large  
E3 反事实  
扰动后方向? UP DOWN SIMILAR  
E4 心智模型  
误差桶?(5个训练样例后) small med large very large  
E5 选择性依赖  
可靠或不可靠? reliable unreliable  
所有实验还提问:您的自信程度如何?(1–5)  

lag_1: 166.27, lag_2: 162.28, lag_3: 189.77, ..., lag_7: 129.44, weekofyear: 42, holidays: 0  
特征(始终存在)  
168.76 kWh  
预测(始终存在)  
lag_6: -14.26, lag_5: -9.74, lag_7: +6.14, ...  
X(SHAP)  
R² = 0.686, MAE = 20.55, RMSE = 25.04  
T(指标)  
关键影响:预测值(168.76 kWh)由于过去消费较低,低于平均基线(177.36 kWh)。最大的下行影响来自6周前的能源使用……  
E(NLE)  
LLM评判者输入  
LLM评判者  
GPT-4o DeepSeek-R1  

图3:实验框架。左:LLM评判者每个实例接收最多五条信息——特征和预测始终存在;SHAP值(X)、模型指标(T)和NLE(E)随条件变化。右:五项下游任务及其响应类别和置信度评分(1–5)。  

### 3.1 数据集与预测模型  

我们使用UCI个体家庭电力消费数据集(Hébrail and Bérard, 2012 (https://arxiv.org/html/2605.26770#bib.bib25))——来自巴黎附近一户家庭的2,075,259个分钟级测量值(2006年12月至2010年11月),重新采样为周粒度。遵循Lukassen等人(2025 (https://arxiv.org/html/2605.26770#bib.bib35)),我们设计了九个特征:七个自回归滞后项(lag_1–lag_7,前几周耗电量,单位kWh)、ISO周编号以及每周法语公共假日计数。在删除含有NaN滞后值的行后,数据集包含200个周观测值;按时间顺序70/30划分,得到140个训练实例和60个测试实例(完整预处理见附录A。

相似文章

LLMs 与表演式生产力

Lobsters Hottest

一位开发者反思使用 AI 代理的经历,并质疑表面上的生产力提升是真实的还是仅仅是表演性的,指出虽然任务完成得更快,但深层理解和真正价值可能会丢失。

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。