评估安全关键型ATR系统中的可解释性：事后方法的局限性与迈向稳健型XAI的路径

arXiv cs.AI 2026/05/08 04:00 论文

摘要

本文评估了安全关键型自动目标识别（ATR）系统中的可解释性方法，突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架，以解决虚假解释和不稳定性等问题，倡导采用更稳健、基于因果关系的XAI方法。

arXiv:2605.05748v1 公告类型：新论文摘要：可解释人工智能（XAI）日益被认为是将机器学习系统部署到安全关键型环境中的关键。在自动目标识别（ATR）中，模型在图像、视频、雷达和多传感器数据上运行，仅具有高预测性能是不够的。模型决策还必须可解释、可靠，并适合验证。本文在安全关键型ATR系统的背景下对可解释性方法进行了结构化评估：我们确定了主要的XAI范式，包括基于显著性的、基于注意力的和代理方法，以及最近的检测感知扩展。在此基础上，我们将可解释性形式化为一个面向保障的评估问题，引入了一种分类法，并从四个关键维度评估这些方法：可解释性、稳健性、易受操纵性和适合验证与核实性。分析指出了当前事后解释方法的系统性局限。特别是，我们推导出了关键的故障模式，如虚假解释、扰动下的不稳定性以及由视觉上令人信服的输出引起的过度信任。这些发现表明，广泛使用的XAI技术可能不足以支持安全关键型部署。最后，我们讨论了其对ATR系统的影响，并概述了迈向更稳健、基于因果关系且受物理信息驱动的可解释性方法的方向。我们的结果强调，需要超越视觉上合理的解释，转向支持可靠决策和系统级保障的方法。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:47

# 评估安全关键型ATR系统中的可解释性：事后方法的局限性及迈向稳健XAI的路径

来源：https://arxiv.org/html/2605.05748
11institutetext：德国埃廷根，弗劳恩霍夫光学、系统技术与图像利用研究所（IOSB）
11email：[email protected], [email protected] ###### 摘要

可解释人工智能（XAI）日益被认为是将机器学习系统部署到安全关键环境中的必要条件。在自动目标识别（ATR）中，模型处理图像、视频、雷达和多传感器数据，仅具有高预测性能是不够的。模型的决策还必须具备可解释性、可靠性，并适合进行验证。

本文在安全关键型ATR系统的背景下对可解释性方法进行了结构化评估：我们确定了主要的XAI范式，包括基于显著性、基于注意力和基于代理的方法，以及最近出现的检测感知扩展方法。在此基础上，我们将可解释性形式化为以确证为导向的评估问题，引入了一种分类法，并从四个关键维度评估这些方法：可解释性、鲁棒性、对操纵的脆弱性以及适用于验证和确认的程度。分析指出了当前事后解释方法的系统性局限性。特别是，我们推导出了关键的失效模式，如虚假解释、在扰动下的不稳定性以及由视觉上令人信服的输出引起的过度信任。这些发现表明，广泛使用的XAI技术可能不足以用于安全关键部署。

最后，我们讨论了这些发现对ATR系统的影响，并勾勒出朝着更稳健、基于因果关系且融入物理信息的可解释性方法发展的方向。我们的结果强调，需要超越视觉上合理的解释，转向支持可靠决策和系统级确证的方法。

## 1 引言

可解释人工智能（XAI）日益被视为将机器学习系统部署到安全关键环境中的先决条件。这在自动目标识别（ATR）中尤为明显，其中模型处理诸如图像、视频流、雷达和多传感器数据等异构数据源。在这些场景下，仅靠预测准确性是不够的。由于误判可能产生重大的操作后果，模型决策还必须透明、可靠，并适合进行技术评估。

尽管性能强劲，现代深度学习模型，特别是基于卷积和Transformer的架构，本质上仍然是不透明的。为了解决这一问题，人们提出了广泛的事后解释技术，包括基于显著性、基于注意力和基于代理的方法[3 (https://arxiv.org/html/2605.05748#bib.bib21),13 (https://arxiv.org/html/2605.05748#bib.bib2),19 (https://arxiv.org/html/2605.05748#bib.bib1),22 (https://arxiv.org/html/2605.05748#bib.bib6)]。虽然这些方法通常能产生视觉上令人信服的解釋，但其可靠性正受到越来越多的质疑。实证研究表明，解释在模型随机化下可能保持稳定，对微小扰动反应强烈，或者根本无法反映底层的决策过程[1 (https://arxiv.org/html/2605.05748#bib.bib7)]。

这些局限性在ATR背景下尤为关键。与标准的图像分类任务不同，ATR系统必须在多变的环境条件、传感器噪声、不完整的观测和实时约束下运行。此外，解释不仅用于人类解释，还用于系统验证、鲁棒性分析和决策支持。因此，解释方法必须满足更严格的要求，包括稳定性、抗操纵能力以及与验证和确认过程的兼容性。

最近的研究强调了结构化评估XAI方法的必要性，特别是在对象检测场景中，解释必须同时捕捉空间定位和语义相关性。同时，遥感领域的研究也强调了可解释性在现实世界和安全关键设置中的日益重要性。

这项工作提供了针对现代ATR系统中XAI方法的结构化分析，重点关注基于显著性、基于注意力和基于代理的方法，包括最近的检测感知扩展，并分析它们在安全关键环境中的优势、局限性和常见失效模式。本文并未提出新的解释算法。相反，它提供了一个ATR特定的评估框架，用于评估现有的XAI范式是否适合安全关键用途，特别强调鲁棒性、抗操纵能力以及验证和确认。

这项工作的主要贡献如下：

- 我们将安全关键ATR中的可解释性形式化为以确证为导向的评估问题，并引入了四个评估维度：可解释性、鲁棒性、对操纵的脆弱性以及适用于验证和确认的程度。
- 我们提供了一个ATR特定的、统一的XAI方法分类法，涵盖基于显著性、基于注意力、代理、检测感知、基于概念以及内在或物理信息的方法。
- 我们针对这些维度对主要XAI方法进行了系统的跨范式评估，确定了它们对于探索性分析、结构化验证和高保证部署的适用性。
- 我们确定了当前事后XAI实践与安全关键要求之间的系统性差距，包括不稳定性、虚假解释、过度信任以及集成到V&V（验证与确认）工作流中的局限性。
- 我们推导出了朝向稳健、基于因果关系且融入物理信息的XAI方法的具体研究方向，强调了需要支持验证、抵抗操纵并与领域约束一致的解释。

## 2 相关工作

### 2.1 计算机视觉中的XAI

可解释人工智能在计算机视觉领域得到了广泛研究，其中大多数方法可分为基于归因、基于激活、基于扰动、基于概念和面向Transformer的方法。最近的综述论文提供了越来越结构化的概览，并突出了从图像分类向对象检测和跟踪等更复杂任务转变的趋势[5 (https://arxiv.org/html/2605.05748#bib.bib14),14 (https://arxiv.org/html/2605.05748#bib.bib13)]。基于归因的方法如梯度显著性和集成梯度[24 (https://arxiv.org/html/2605.05748#bib.bib3)]关注局部特征的相关性，而基于激活的方法如CAM和Grad-CAM利用中间特征图进行空间定位。更近的综述还强调了基于Transformer的可解释性方法，并讨论了它们对现代视觉架构的相关性[5 (https://arxiv.org/html/2605.05748#bib.bib14)]。

与此同时，越来越多的工作指出了现有XAI方法的根本缺陷。视觉上连贯的解释不一定对应于模型相关的特征，且许多方法对噪声和扰动表现出显著的敏感性。这些观察促使人们转向更严格的评估协议和应用特定的分析框架，特别是在高风险领域。

### 2.2 对象检测的可解释性

与图像分类相比，对象检测中的可解释性带来了额外的挑战，因为解释不仅要考虑类别预测，还要考虑定位决策和多对象场景。因此，经典的基于显著性的方法如Grad-CAM[22 (https://arxiv.org/html/2605.05748#bib.bib6)]已被扩展至Faster R-CNN[18 (https://arxiv.org/html/2605.05748#bib.bib11)]和YOLO[17 (https://arxiv.org/html/2605.05748#bib.bib12)]等对象检测流水线，其中解释通常以特定的检测头或边界框为条件。

最近的工作提出了基于CAM方法的检测感知扩展，包括高斯类激活映射解释器（G-CAME）[2 (https://arxiv.org/html/2605.05748#bib.bib20)]，它在对象检测设置中改进了实例级定位和计算效率。与此同时，人们对专门针对检测任务基准测试可解释性方法产生了浓厚兴趣。例如，ODExAI引入了一个基于定位准确性、忠实度和计算复杂性的对象检测可解释性专用评估框架[15 (https://arxiv.org/html/2605.05748#bib.bib15)]。这类工作对于ATR场景特别相关，因为解释必须同时捕捉语义目标证据和空间精度。

基于Transformer的对象检测器如DETR[4 (https://arxiv.org/html/2605.05748#bib.bib5)]进一步扩大了方法论的范围。它们的注意力机制通常被解释为解释信号，但先前的工作表明，注意力权重不一定对应于因果相关性[7 (https://arxiv.org/html/2605.05748#bib.bib8)]。这限制了它们的直接可解释性，并在实际用例中需要批判性评估。

### 2.3 安全关键和ATR应用中的XAI

**图1：安全关键应用的示例：从无人机热红外视角进行的实时自动目标识别**

XAI在安全关键应用中的使用受到了越来越多的关注，特别是在模型决策错误或理解不足可能导致严重后果的领域。在这种背景下，可解释性不仅是模型开发人员的诊断工具，也是信任、验证和操作接受的先决条件。

在ATR领域，可解释性已在多种传感模态中得到研究，包括图像、视频、雷达和SAR数据。基于图像的ATR和对象检测系统主要依赖事后显著性或基于注意力的方法，而基于雷达和SAR的ATR则越来越多地探索更结构化或基于物理基础的可解释性形式。卫星图像中的应用驱动研究表明，可解释的对象检测可以提高鲁棒性并支持遥感场景中的结构化推理[20 (https://arxiv.org/html/2605.05748#bib.bib18)]。同样，在基于单目视觉的UAV系统中，可解释性也变得越来越重要，其中透明的障碍检测和导航决策对于安全可信的自主运行至关重要[8 (https://arxiv.org/html/2605.05748#bib.bib19)]。

总体而言，先前的工作表明，ATR中的可解释性正从通用的可视化方法转向任务特定、检测感知和应用驱动的方法。然而，文献中仍然缺乏针对安全关键ATR系统的统一评估视角。特别是，仍需系统地比较XAI方法在鲁棒性、可操纵性以及适用于验证和确认方面的表现。

### 2.4 差距分析与定位

尽管最近的综述提供了计算机视觉中XAI方法的全面概览，但它们 largely 与应用无关，并未充分解决安全关键ATR系统的需求。同样，检测感知的XAI框架改进了对对象检测解释的评估，但它们主要关注定位、忠实度和计算方面。对于高保证ATR应用而言，这些标准是必要的但不足够的，因为解释还必须在传感器和环境扰动下保持鲁棒、抗操纵，并且能在验证和确认过程中使用。因此，本文将自己定位在通用XAI综述、对象检测特定的解释基准和安全关键AI研究之间。其贡献是一个ATR特定的评估框架，将主要的XAI范式与操作确证需求联系起来。目标不是引入新的解释方法，而是识别哪些类型的解释适合、不适合或有希望用于安全关键ATR。

上述讨论表明，现有的XAI文献提供了广泛的方法分类、对象检测特定的解释技术或对高风险领域中事后解释的一般性批评。仍然缺少的是连接解释方法与操作确证需求的ATR特定视角。因此，下一节将ATR中的XAI评估表述为一个多标准评估问题。

## 3 评估框架

### 3.1 问题形式化

自动目标识别系统可以形式化为将传感器数据映射到目标标签的预测模型。给定输入空间 $X \subseteq \mathbb{R}^n$ 和输出空间 $Y$，例如连续预测。一个输入 $x \in X$，代表来自一个或多个传感器的数据，一个模型 $f$ 产生预测 $y \in Y$，通常通过最大化后验概率实现：

$f(x) = \arg\max_{y \in Y} p(y|x)$ (1)

在现代ATR系统中，$f$ 通常实现为深度神经网络，如卷积或基于Transformer的架构。在对象检测设置中，模型输出还可能包括空间信息，如边界框或分割掩码，从而产生以下形式的结构化预测：

$f(x) = \{(y_i, b_i)\}_{i=1}^N$ (2)

其中 $y_i$ 表示预测的类别，$b_i$ 表示对应的作为边界框的空间定位，$N$ 表示检测数量。

为了提高透明度，引入了一个解释函数 $E$，它将模型 $f$ 和输入 $x$ 映射到可解释的表示：

$E: (f, x) \mapsto e$ (3)

其中解释 $e$ 可以采取不同的形式，如显著性图、注意力分布或代理模型近似。

可解释性的核心目标是确保 $e$ 为 $f$ 的决策过程提供有意义的见解。然而，在安全关键的ATR系统中，这一目标受到额外要求的约束。解释必须满足超越视觉可解释性的属性，包括在输入扰动下的稳定性、抗操纵能力以及与底层模型行为的一致性。

这导致了一个根本性的挑战：给定模型 $f$ 和解释方法 $E$，如何以原则性和应用相关的方式评估 resulting 解释 $e$ 的质量？与标准的机器学习评估不同，通常没有解释的真值[9 (https://arxiv.org/html/2605.05748#bib.bib17),11 (https://arxiv.org/html/2605.05748#bib.bib16)]，这使得直接测量正确性变得困难。

由于多传感器输入、多变的环境条件和实时约束，ATR系统引入了额外的复杂性。因此，解释必须同时捕捉语义相关性（即哪些特征影响预测类别）和空间定位（即相关信息位于何处），同时在不同的传感模态下保持鲁棒性。

在这项工作中，我们通过形式化...

评估安全关键型ATR系统中的可解释性：事后方法的局限性与迈向稳健型XAI的路径

相似文章

协调基于一致性的诊断与基于实际因果关系的解释

面向工业视觉检测的架构感知解释审计

超越黑盒：智能体人工智能工具使用的可解释性

GridVQA-X：评估多模态可解释性方法的框架

有质量却无用处：LLM生成的XAI叙述作为信任启发式而非决策辅助工具

提交意见反馈