GLARE:一种用于查询全局解释的自然语言接口
摘要
GLARE是一种基于LLM的接口,能够将自然语言问题转化为针对局部解释数据的SQL查询,使用户能够交互式地探索黑盒图像分类器的全局解释。
arXiv:2606.19735v1 Announce Type: new
摘要:全局解释对于理解跨数据集、类别和决策上下文的视觉模型至关重要,但其复杂且单一的性质常常阻碍实际探索。由于用户通常针对特定问题寻找有针对性的答案,而非静态的人工制品,我们提出了一种基于LLM的交互式接口,为黑盒图像分类器的全局解释提供自然语言访问。该系统的核心LLM充当中介,将自然语言问题转化为针对局部解释数据的结构化SQL查询。这使得能够灵活聚合,而无需向用户暴露底层表示。对于每个查询,接口输出统计增强的自然语言响应,支持局部解释以及意图对齐的可视化。我们在意图解释、查询映射准确性、对新查询和数据集的泛化能力以及对语言错误的稳健性方面评估了该系统。结果表明,基于LLM的查询显著提高了以人为中心的XAI中全局解释的可访问性和可用性。
查看缓存全文
缓存时间: 2026/06/20 14:32
# GLARE:用于查询全局解释的自然语言接口
来源:https://arxiv.org/html/2606.19735
11institutetext:俄勒冈州立大学,美国俄勒冈州科瓦利斯 9733011email:\{vasub,mangannr\}@oregonstate\.edu###### 摘要
虽然全局解释对于理解跨数据集、类别和决策情境的视觉模型至关重要,但其复杂且单一的性质常常阻碍了实际探索。由于用户通常寻求针对特定问题的精准答案,而非静态产物,我们提出了一种基于LLM的交互式接口,该接口为黑盒图像分类器的全局解释提供了自然语言访问。系统的核心LLM充当调解者,将自然语言问题转化为针对局部解释数据的结构化SQL查询。这使得灵活聚合成为可能,同时无需用户接触底层表示。对于每个查询,该接口输出统计增强的自然语言响应,提供局部解释及与意图对齐的可视化。我们从意图理解、查询映射精度、对新查询和数据集的泛化能力以及对语言错误的鲁棒性等方面对系统进行了评估。结果表明,LLM介导的查询方式显著提高了以人为中心的XAI中全局解释的可访问性和易用性。
## 1. 引言
深度视觉模型在从医学诊断到自动驾驶等任务中取得了显著成功,但其决策过程在很大程度上仍不透明。在高风险场景中,用户不仅需要解释来为单个预测进行辩护,还需要建立系统行为的心理模型,评估可靠性并诊断故障模式。可解释人工智能(XAI)方法传统上分为*局部*和*全局*两类。局部方法,如显著性图[17](https://arxiv.org/html/2606.19735#bib.bib1)、概念瓶颈[9](https://arxiv.org/html/2606.19735#bib.bib2)或反事实解释,针对特定实例进行解释(例如,“为什么*这张*图片被归类为狼?”)。虽然这些方法对审计单一错误很有用,但它们无法揭示系统性的偏见或普遍的推理模式。相反,*全局*解释旨在总结模型在整个输入空间上的行为,通常通过识别全局重要特征[6](https://arxiv.org/html/2606.19735#bib.bib5)[1](https://arxiv.org/html/2606.19735#bib.bib4)或将模型蒸馏为透明代理(如决策树[10](https://arxiv.org/html/2606.19735#bib.bib3)[5](https://arxiv.org/html/2606.19735#bib.bib7)或析取范式(DNF)公式[21](https://arxiv.org/html/2606.19735#bib.bib6)[2](https://arxiv.org/html/2606.19735#bib.bib8))来实现。
然而,一个关键的可用性缺口困扰着现代全局解释:它们往往在规模和复杂性上令人不堪重负。对于在复杂视觉领域上训练的深度网络,一个高保真的全局解释可能包含数千条逻辑规则或原型。向用户呈现这种“解释倾泻”会导致认知过载,反而掩盖了其旨在揭示的见解。我们认为,用户很少需要一个静态、单一的完整模型摘要。相反,人类寻求解释的过程是一个迭代的、由查询驱动的过程[12](https://arxiv.org/html/2606.19735#bib.bib10)[11](https://arxiv.org/html/2606.19735#bib.bib9)。用户带着特定的假设或信息需求接近模型,例如:*“对于‘卧室’类别,哪些特征是必要的?”*、*“模型是否依赖背景雪来分类狼?”* 或 *“请给我一些模型依赖形状而非纹理的例子。”* 当前的XAI工具迫使用户手动筛选和聚合局部解释来回答这些问题,这造成了摩擦,限制了全局见解的实际效用。
在本文中,我们提出GLARE(全局基于语言的分析与解释检索),这是一个交互式接口,用于在用户和大规模全局解释之间进行中介。我们不再将全局解释视为一个可供查看的静态产物,而是将其视为一个可查询的*数据库*。我们选择逻辑解释[21](https://arxiv.org/html/2606.19735#bib.bib6)[20](https://arxiv.org/html/2606.19735#bib.bib11)],它通过聚合局部最小充分解释(MSX)形成全局DNF结构,其特点在于以逻辑规则形式将概念的重要性与否进行二元划分。我们将这些基于逻辑的局部解释摄取到关系数据库中,从而能够对模型的推理模式进行精确的结构化查询。尽管我们的实验仅限于由[21](https://arxiv.org/html/2606.19735#bib.bib6)生成的解释,但本文介绍的接口可以适用于任何基于概念的局部解释方法。GLARE允许用户使用自然语言来查询这个数据库。我们系统的核心是一个经过微调的大语言模型(LLM),它充当语义解析器,将用户问题转化为结构化的SQL查询。与通用的文本到SQL方法不同,我们将LLM约束在专门用于解释决策的分析查询模板的分类中进行选择。模板范围从简单的对象频率计数到复杂的反事实集合运算。通过在微调过程中采用损失掩码技术,将学习重点完全集中在特定于解释的SQL结构(“围栏掩码”)上,我们鼓励模型学习解释查询的*关系代数*,而不是记忆数据集特定的实体名称,从而实现对新数据集的零样本迁移。
我们基于ADE20K场景解析数据集导出的全局解释对GLARE进行了评估。结果表明,该系统在分布内查询上实现了超过95%的准确率,并对拼写错误、语法噪声和措辞变化表现出强大的鲁棒性。最值得注意的是,我们展示了零样本跨数据集迁移:一个仅在ADE20K元数据上训练的模型,能够有效解释针对Pascal VOC数据库的查询,这是一个目标词汇完全不同的领域。这表明我们的方法学习了适用于多样化视觉任务的通用推理模式。总之,我们的贡献有三点:(i) 我们引入了一个自然语言接口,用于将全局解释作为可查询的数据库进行交互;(ii) 我们定义了一个基于SQL的中间表示,用于聚合、过滤和对比局部解释;(iii) 我们证明,使用SQL围栏损失掩码进行合成数据微调,能够实现鲁棒的查询解释,包括在无需重新训练的情况下跨数据集迁移到Pascal VOC。
## 2. 相关工作
#### 交互式与对话式XAI:
这一挑战凸显了解释的“社会性”本质[12](https://arxiv.org/html/2606.19735#bib.bib10),表明它们应该是交互式的对话,而非静态产物。早期的XAI系统将用户意图分类为“为什么?”或“如果……会怎样?”等查询[11](https://arxiv.org/html/2606.19735#bib.bib9),而像Gamut[7](https://arxiv.org/html/2606.19735#bib.bib18)或What-If工具[22](https://arxiv.org/html/2606.19735#bib.bib19)等可视化工具则支持手动反事实检查。然而,这些接口通常需要大量的领域专业知识。对话式XAI通过允许自然语言交互降低了这一门槛;虽然像TalkToModel[19](https://arxiv.org/html/2606.19735#bib.bib21)这样的系统在表格数据上开创了这一范式,但我们的工作将这一范式扩展到全局视觉解释中,支持对必要和充分条件进行复杂的结构化查询。
#### 作为神经符号解释器的LLM:
为了弥合自然语言与形式逻辑之间的鸿沟,我们利用大语言模型(LLM)作为神经符号解释器,而不是直接作为解释生成器(后者容易产生幻觉)。现有工作将LLM用作语义解析器(例如,文本到SQL[23](https://arxiv.org/html/2606.19735#bib.bib22)[16](https://arxiv.org/html/2606.19735#bib.bib23))或工具增强的路由器[15](https://arxiv.org/html/2606.19735#bib.bib24)。在XAI领域,LLM已被用于描述神经元[3](https://arxiv.org/html/2606.19735#bib.bib27)或检索静态产物[18](https://arxiv.org/html/2606.19735#bib.bib26)。相比之下,GLARE将LLM视为一个受逻辑约束的解析器,通过可验证的SQL模板将用户意图映射到确定的“解释语法”。这确保了自然语言的灵活性建立在形式正确性的基础上,从而能够对模型的推理结构进行精确的逻辑聚合和反事实查询。
## 3. 方法论
我们提出了一个用于查询图像分类器全局解释的自然语言接口。我们的系统建立在Vasu等人[21](https://arxiv.org/html/2606.19735#bib.bib6)的全局解释框架之上,该框架为黑盒图像分类器生成基于概念的解释,以析取范式(DNF)公式的形式表述每个类别的重要对象组合。我们的系统允许用户用自然语言提出分析性问题,并获得结构化的、可解释的答案以及支持证据图像。更正式地说,设$f_\theta: \mathcal{X} \rightarrow \mathcal{Y}$表示一个图像分类器,将图像$x \in \mathcal{X}$映射到标签$y \in \mathcal{Y}$。我们假设有一个数据集$\mathcal{D}=\{(x_i, y_i)\}_{i=1}^N$和预测值$\hat{y}_i = f_\theta(x_i)$。我们假设可以访问一个局部解释生成器$E$,为每个输入生成一个解释产物$e_i = E(x_i, f_\theta)$,其中$E$是基于概念的归因方法或原型的结果。用户用自然语言提出关于$\mathcal{D}$子集上模型聚合行为的问题$q$(例如,按类别、混淆对或属性)。我们的目标是通过检索和聚合相关的局部解释产物$\{e_i\}$来回答$q$。
### 3.1 系统概述
我们的系统遵循*解析-验证-执行*流水线(图1)。用户用自然语言提出问题(例如,*“卧室图片中同时包含床和墙的百分比是多少?”*)。我们基于LLM的查询解释器通过从一组预定义的查询模板中选择模板并提取相关参数(类别名称、对象名称、阈值),将问题转化为结构化的SQL查询。参数化的模板被实例化为可执行的SQL查询,经过正确性和安全性验证后,针对编码了全局解释的数据库执行。结果以结构化数据的形式返回,同时提供突出显示相关对象的支持证据图像。返回的结构化数据随后使用相同规模的小型通用LLM转换回自然语言。支持局部解释的图像会基于原始图像和分割图突出显示贡献区域,如图2所示。
由于模型学习在固定的关系模式上生成SQL,它习得了查询语言本身的组合结构,而不仅仅是短语到模板索引的映射。这使得模型能够沿多个维度进行泛化:泛化到未见过的实体组合、语言变体、已知SQL片段的新颖组合,甚至共享相同模式的完全新数据集。同时,将生成锚定在预定义模板中,降低了生成格式错误或语义不正确查询的风险,同时保留了进行有意义解释查询所需的表达能力。对于给定的查询,接口返回:(1) 带有相关统计信息的自然语言摘要;(2) 支持性局部解释(示例);(3) 与查询意图一致的可视化。
图1:端到端流水线。顶部:上游框架通过聚合局部概念或基于逻辑的解释生成mDNF解释。底部:我们的系统将自然语言问题转化为经验证的SQL查询,针对解释数据库执行,返回结构化的答案及支持证据图像。
### 3.2 基于LLM的查询解释
我们将自然语言查询解释表述为一个结构化的SQL生成问题:给定用户查询$q$,模型选择一个合适的查询模式并提取参数$\phi(q)$,以将其实例化为可执行的SQL。我们使用低秩适应(LoRA)[8](https://arxiv.org/html/2606.19735#bib.bib31)和4位量化(QLoRA)(LoRA秩:16,alpha:32,dropout:0.05)对Gemma 2-9B[14](https://arxiv.org/html/2606.19735#bib.bib30)进行了微调。
#### 训练数据生成。
我们生成覆盖24个不同查询模板的合成训练数据,共产生50,000个训练样本和2,000个验证样本。对于每个模板,我们随机采样类别-对象组合,并应用自然语言变体:(1)同义词替换:运算符(*“和”*、*“&”*、*“与……一起”*)、量词(*“百分比”*、*“%”*、*“比例”*)、排序术语(*“前”*、*“最常见”*、*“领先”*)。(2)措辞模板:每种查询类型的自然语言模板(例如,*“X中有百分之多少具有Y?”* 对比 *“X中包含Y的比例是多少?”*)。在微调过程中,我们采用自定义的整理器(SqlFenceCollator),将训练损失掩码*仅*应用于SQL_START和SQL_END之间的标记。
### 3.3 查询模板
我们定义了24个查询模板,对应全局解释上的常见分析任务。每个模板捕获一个特定的问题类型,并通过从用户查询中提取的实体(目标类别、对象名称、比较类别、阈值等)进行参数化。模板按复杂度递增分为三层:*核心*查询涵盖基本的对象-类别关系,如频率、布尔组合、top-$k$排名、共现和类别排名;*扩展*查询利用SQL特性,如自连接实现N元组合、跨类别比较、集合运算、条件共现和置信度过滤分析;而*对比*查询则支持反事实分析,包括缺失分析、阈值查询和类别间的区分特征。完整的包含所有24个模板的分类体系和提示结构见补充材料。关键的是,模板集并非固定的系统边界:添加新的问题类型只需定义新的SQL模式并重新生成合成训练数据,之后整个流水线(数据生成、微调和评估)会自动运行,无需人工标注。
## 4. 实验设置
我们沿四个维度评估GLARE:(i) 在训练数据集上对保留查询的分布内准确率,(ii) 对自然语言扰动的鲁棒性,(iii) 对新颖措辞和未见SQL结构的分布外泛化能力,以及 (iv) 向具有完全不同对象词汇和场景分类体系的数据集进行跨数据集迁移的能力。
### 4.1 数据集
#### 训练数据。
训练示例通过从24个查询模板中采样合成生成。每个模板通过从ADE20K的150个对象和35个场景类别的词汇表中随机选择对象和场景类,生成一个(自然语言问题,SQL查询)对。我们生成了50,000个训练对(种子=42)和2,000个验证对。相似文章
GridVQA-X:评估多模态可解释性方法的框架
GridVQA-X 引入了一个诊断框架,通过区分多模态模型中真正的空间关系推理与跨模态捷径,来评估跨模态可解释性。
OneGlanse
OneGlanse 是一款免费开源的地理可见性跟踪工具,用于监控大语言模型的全球分布。
应用于大语言模型的可解释性研究:对比分析
一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。
GLM-5.2 是本地人工智能的一次胜利
GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。
SGR:一种基于外部子图生成的LLM逐步推理框架
介绍SGR,一种逐步推理框架,通过从外部知识库生成查询特定子图来增强LLM推理,提升准确性与事实可靠性。