通过 $K$ 阶马尔可夫近似实现多变量时间序列预测模型的全局解释

arXiv cs.LG 论文

摘要

本文提出了 KARMA,一种通过构建捕获时间依赖性的 K 阶马尔可夫代理模型来解释多变量时间序列预测模型的方法,提供了五级全局解释层级。

arXiv:2606.27599v1 公告类型: 新 摘要: 尽管已经提出了许多可解释人工智能(XAI)方法,但大多数并非为时间序列预测模型设计,并且通常依赖于时间戳特征相互独立的隐含假设。这一假设忽视了时间依赖的基本特性,并可能导致解释违反数据的序列和因果结构。我们引入了 \textsc{KARMA},一种通过构建捕获预测器所学时间依赖性的马尔可夫代理模型来解释时间序列预测器的方法。我们的方法围绕三个主要方面:识别对模型预测充分的最小历史长度 $K$,从离散化的历史空间中估计最佳拟合的 $K$ 阶马尔可夫转移核,以及一个可从马尔可夫转移核导出的五级全局解释层级,我们使用真实世界天气数据(北京 PM 2.5)进行了说明。我们还使用具有已知真实因果边的复杂合成数据验证了 KARMA (i) 通过受控实验恢复了模型学到的数据因果结构,并且 (ii) 比已有的归因方法(如 TimeSHAP)更好地识别了时间依赖性。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:23

# 通过 K 阶马尔可夫逼近的多元时间序列预测模型全局解释  
来源:https://arxiv.org/html/2606.27599  

###### 摘要  

尽管已有许多可解释人工智能(XAI)方法被提出,但大多数并非专为时间序列预测模型设计,并且往往隐含假设时间戳特征相互独立。这一假设忽视了时间依赖的基本属性,可能导致解释违背数据的时序和因果结构。我们提出 **KARMA**,一种通过构建马尔可夫替代模型来解释时间序列预测器的方法,该替代模型能够捕捉预测器所学习到的时间依赖关系。我们的方法围绕三个主要方面展开:识别对模型预测而言足够的最小历史长度 \(K\);从离散化历史空间中估计最佳拟合的 \(K\) 阶马尔可夫转移核;以及基于该转移核导出一个五级全局解释层次结构,并利用真实世界天气数据(北京 PM2.5)进行说明。我们还通过已知真实因果边的复杂合成数据进行验证,证明 KARMA (i) 通过控制实验恢复了模型从数据中学到的因果结构,并且 (ii) 比已建立的归因方法(如 TimeSHAP)更好地识别了时间依赖关系。  

*关键词*:可解释人工智能 · 时间序列预测 · 马尔可夫链  

## 1 引言  

深度学习模型在金融时间序列、临床监测和工业感知领域的部署已大幅增长。递归网络、时间卷积网络(TCN)和 Transformer 架构取得了强劲的预测性能,但它们仍然在很大程度上是不透明的:实践者难以识别哪些时间模式、跨变量依赖关系或历史状态驱动了某个特定的预测。这种不透明性在 ESMA 指南和欧盟人工智能法案下造成了监管摩擦,并削弱了高风险决策环境中对模型的信任。  

可解释人工智能(XAI)方法,如 LIME (Ribeiro et al., 2016)、SHAP (Lundberg and Lee, 2017) 和基于注意力的归因方法,最初主要是为静态、独立同分布(i.i.d.)设置而开发的。将它们扩展到时间序列并非易事:时间自相关、非平稳性和变量间的格兰杰因果关系违反了大多数归因框架所依赖的独立性假设。例如,SHAP 的基线边际化对于时间序列而言在结构上是不合理的,因为 \(X_{t-2}\) 并非独立于 \(X_{t-1}\);梯度归因描述的是单点上的局部几何性质,而非模型全局学习的系统性条件结构。  

我们提出一种基于概率近似的不同方法。我们不是扰动输入或计算基于梯度的归因,而是问:*黑箱模型在多元时间序列上的行为能否被一个 \(K\) 阶马尔可夫链忠实地近似?* 如果是,那么该链的转移概率就构成了一种结构化、可解释的解释,该解释以模型学到的数据条件依赖结构为基础。这种框架对于序列领域很自然:临床医生、工程师或交易员已经在用条件情景进行推理——“给定系统过去的三个状态,模型接下来会预测什么?”——而转移概率直接回答了这个问题,使用领域本身的自然语言。  

我们提出 KARMA,一种通过从转移核导出的五级(全局)解释层次结构来解释黑箱时间序列模型的方法。我们的贡献围绕三个不同的支柱组织,它们具有不同的理论基础和不同的数据需求。  

1. **支柱 1(马尔可夫替代模型)**:一个替代预测有效性停止规则选择预测足够的最小滞后 \(K^*\),并在该 \(K^*\) 下利用数据以最小误差估计最佳近似的 \(K^*\) 阶马尔可夫概率转移核。这回答了一个实践者在信任序列模型之前应该问的问题:模型实际使用了其输入窗口的多大一部分?答案是经过认证且与模型无关的。  
2. **支柱 2(压缩与认证归因)**:当 \(K\) 小于模型窗口大小时,模型被证明对超出滞后 \(K^*\) 的输入不敏感。这产生了一个压缩比、一个解决基线选择问题的模型认证基线 \(b^*\),以及所有超出滞后 \(K^*\) 的滞后的认证零归因——不仅是小的归因,而是在近似误差范围内数学上的零。  
3. **支柱 3(五级全局解释推导)**:基于估计的核,KARMA 无需额外的 oracle 查询即可提取五层解释。**第一级**计算归一化的变量重要性或特征级重要性,根据所有目标变量和滞后的总分布影响对源变量进行排序。**第二级**按滞后 \(k\) 分解这种影响,得到单元级解释(例如,特征 \(d\) 在时间 \(t-k\) 的值对时间 \(t\) 预测的影响),揭示模型是否为每个变量学习了动量、均值回归或长记忆动态。**第三级**通过边际相互依赖指数识别不同的状态,从而找出与预测相关的不同路径(历史)。**第四级**计算平均干预效应和填充模型诱导因果图的边贡献,将解释直接连接到第一级。**第五级**量化解释的可靠性:aleatoric 熵衡量每个历史状态下模型真正的不确定性,而 epistemic 方差则标记核估计不可靠的历史状态。  

## 2 相关工作  

**时间序列预测的 XAI。** 现有方法分为三大类。  

*基于梯度* 的方法将预测敏感性反向传播到输入:Saliency (Simonyan et al., 2014)、Grad-CAM (Selvaraju et al., 2017)、DeepLIFT (Shrikumar et al., 2017)、层相关性传播 (Bach et al., 2015) 和积分梯度 (Sundararajan et al., 2017),通常通过 SmoothGrad (Smilkov et al., 2017) 进行平滑。这些方法速度较快,但不提供概率保证,并且对结构敏感;此外,标准显著图方法在时间数据上迁移效果不佳,Ismail 等人 (2020) 对此进行了基准测试,并提出了时间显著度重新缩放(TSR)来恢复时间局部重要性。时间积分梯度(TIG;Enguehard, 2023)将该系列扩展到序列设置,但仍然是局部的。  

*基于扰动* 的方法(LIME (Ribeiro et al., 2016),SHAP (Lundberg and Lee, 2017))在处理时间自相关时存在困难,因为随机扰动破坏了序列结构并导致了流形外输入。最简单的实例,特征遮挡(FO;Suresh et al., 2017),用一个基线替换一个特征或一组特征并评估输出变化;其增强变体(AFO;Tonekaboni et al., 2020)使用分布内样本进行扰动以减轻流形外伪影。TimeSHAP (Bento et al., 2021) 将 SHAP 扩展到递归模型,但继承了基线选择问题,并且不提供认证归因。FIT (Tonekaboni et al., 2020) 根据每个观测值对预测分布偏移的贡献进行评分,该偏移通过 KL 散度相对于其他特征未被观测的反事实情况进行衡量,明确控制了时间依赖偏移,但仍然是纯局部的。Dynamask (Crabbé and van der Schaar, 2021) 学习一个显著的输入掩码,但在局部操作且无可靠性保证;后续的基于掩码的改进,如 ContraLSP (Liu et al., 2024)(对比性、局部稀疏扰动)和替代解释器 TimeX (Queen et al., 2023),提高了保真度,但同样只产生实例级、未经认证的归因。WinIT (Leung et al., 2023) 测量跨时间窗口的信息传递,但不提供认证归因。  

*基于注意力* 的方法将注意力权重视为解释,但这种做法

相似文章

嵌套时空时间序列预测

arXiv cs.LG

本文提出一种嵌套时空预测框架,利用谱聚类构建语义一致的宏观区域,为细粒度的微观预测提供自上而下的指导。在高维数据集上的实验表明,该方法始终优于最先进的基线模型。

评估自然语言解释中的判断质量:来自预测锦标赛的证据

arXiv cs.CL

本文介绍了解释质量标记(EQMs),这是一组由大语言模型评分的60种推理模式,用于衡量预测锦标赛中自然语言解释的质量。通过分析超过55,000个预测-理由配对,EQMs在预测层面和预测者层面都预测了准确性,优于之前的方法。