StableRCA: 稳健的图无关机制级根因分析
摘要
StableRCA是一种新颖的根因分析框架,通过估计局部马尔可夫边界并检测条件分布偏移来识别干预目标,避免了全局因果图的发现,在合成和真实数据集上展示了鲁棒性。
arXiv:2606.05636v1 公告类型: 新
摘要:根因分析(RCA)旨在识别复杂领域(如制造业、云计算和医疗健康)中导致系统异常行为的变量。现有方法面临关键瓶颈:基于图的因果方法可以识别干预目标,但通常需要已知或准确估计的因果图,而无需图结构的统计方法要么定位边缘异常而非结构性原因,要么依赖关于图结构或函数形式的严格假设。我们提出StableRCA,一种局部机制级RCA框架,通过估计局部马尔可夫边界并检测其中的条件分布偏移,避免了全局图发现。利用独立因果机制原则,我们表明,在忠实马尔可夫边界恢复和非退化机制偏移下,干预目标可以以指数收敛于样本量的概率被识别。在合成基准和五个真实数据集上的实验表明,StableRCA对图错误指定具有鲁棒性,在多个干预目标下有效,可扩展至大型系统,并在多样化应用领域中可靠。代码可在以下网址获取:https://anonymous.4open.science/r/StableRCA-E362
查看缓存全文
缓存时间: 2026/06/05 08:12
# StableRCA: 鲁棒图无关机制层面根因分析
来源:https://arxiv.org/html/2606.05636
Xiaoyu Lin
计算机科学系
清华大学
xiaoyulin@mail\.tsinghua\.edu\.cn
& Nicholas Tagliapietra¹
博世人工智能中心
德国雷宁根
计算机科学系
达姆施塔特工业大学
德国
nicholas\.tagliapietra@de\.bosch\.com
& Kehan Li¹
计算机科学系
清华大学
lkh20@mails\.tsinghua\.edu\.cn
& Lavdim Halilaj
博世人工智能中心
德国雷宁根
Lavdim\.Halilaj@de\.bosch\.com
& Juergen Luettin
博世人工智能中心
德国雷宁根
Juergen\.Luettin@de\.bosch\.com
###### 摘要
根因分析旨在识别在制造、云计算和医疗等复杂领域中导致系统异常行为的变量。现有方法面临一个关键瓶颈:基于图的因果方法可以识别干预目标,但通常需要已知或准确估计的因果图,而无图统计方法要么定位边际异常而非结构原因,要么依赖于对图结构或函数形式的限制性假设。我们提出StableRCA,一种局部机制层面的RCA框架,通过估计局部马尔可夫边界并检测其中的条件分布偏移,避免了全局图发现。利用独立因果机制原理,我们证明在忠实马尔可夫边界恢复和非退化机制偏移下,干预目标可以以样本量指数收敛的概率被识别。在合成基准和五个真实世界数据集上的实验表明,StableRCA对图误规范具有鲁棒性,在多个干预目标下有效,可扩展到大型系统,并在不同应用领域中可靠。代码见:https://anonymous.4open.science/r/StableRCA-E362
## 1 引言
根因分析旨在识别导致系统行为异常的根本因素。它是许多高风险和大规模领域的核心任务,包括制造[Oliveira等人,2022 (https://arxiv.org/html/2606.05636#bib.bib29),Papageorgiou等人,2022 (https://arxiv.org/html/2606.05636#bib.bib31)]、IT服务和云系统[Sole等人,2017,Soldani和Brogi,2022 (https://arxiv.org/html/2606.05636#bib.bib32)]、医疗[Kellogg等人,2017 (https://arxiv.org/html/2606.05636#bib.bib34)]以及医学[Wu等人,2008 (https://arxiv.org/html/2606.05636#bib.bib33)]。在此类系统中,异常通常通过复杂依赖关系传播:许多变量可能表现异常,但只有一小部分对应实际改变的因果机制。因此,核心挑战是区分真正的根因和下游影响。
基于图的因果RCA方法通过利用因果图并沿图结构追踪异常传播来解决此问题。当图准确时,这些方法可以提供可解释的因果诊断。然而在实践中,可靠的全局因果图很少可用。从观测数据中学习它们在高维系统中是统计上脆弱且计算昂贵的,尤其是当变量异质且依赖关系非线性时。因此,基于图的RCA在图误规范下可能严重退化。相比之下,无图统计方法避免了因果图学习,但通常根据边际分布偏移、异常分数或统计差异对变量进行排序。此类信号对于机制层面RCA不足,因为下游变量即使其自身因果机制不变,也可能表现出强烈的边际异常。放宽全图要求的现有方法通常依赖于局部化条件独立性检验、部分因果结构,或对图拓扑、干预类型或函数形式的限制性假设。
在这项工作中,我们关注群体层面的RCA,其目标是识别那些机制驱动正常和异常状态之间系统性分布变化的变量。此设置不同于样本层面RCA,后者解释单个异常实例,可能对噪声或实例特定波动敏感。在此设置下,我们提出StableRCA,一种用于机制层面RCA的图无关框架。关键见解是,根因和下游受影响变量在局部条件下表现不同。干预不仅在被干预变量上引起边际偏移,也在其后代上引起。然而,根据独立因果机制原理,下游变量一旦以其局部马尔可夫边界为条件,便保持其条件机制,而真正的干预目标则表现出条件分布偏移。基于此观察,StableRCA首先检测具有边际偏移的变量,然后估计其局部MB,最后通过条件分布偏移的强度对候选变量进行排序。
此设计提供三个实际优势。第一,它通过依赖局部条件集而非完整系统拓扑,避免了全局结构发现。第二,它将真正的机制变化与传播的边际异常分开,减少下游变量中的假阳性。第三,它通过结合稳定的局部因果变量选择与基于预测风险的条件偏移检测,适应高维和异质数据。
我们的贡献总结如下:
- •我们提出StableRCA,一种用于机制层面RCA的图无关框架。它结合边际偏移筛选、局部MB估计和条件分布偏移检测来识别根因,无需已知或学习的全局因果图。
- •我们建立了理论条件,在这些条件下,干预目标可通过相对于其MB的条件分布偏移从下游受影响变量中识别。我们进一步建立了有限样本识别保证,表明在适当的非退化机制偏移假设下,正确恢复的概率随样本量指数收敛。
- •我们在合成和真实世界基准上进行了广泛实验,涵盖图误规范、多个干预目标、大规模图和不同应用领域。结果表明,StableRCA实现了强大的准确性和鲁棒性,并与其他RCA基线相比提供了良好的准确性-效率权衡。
见图 (a) 传统图依赖RCA 见图 (b) StableRCA群体层面机制RCA
图1:动机与贡献。:a) 传统图依赖RCA,b) StableRCA群体层面机制RCA。
## 2 相关工作
**基于图的RCA。** 许多RCA方法使用已知、构建或学习的全局图来定位根因。早期方法,尤其在微服务系统中,从领域知识、系统拓扑或观测数据构建依赖图、因果图或影响图,然后通过图遍历或评分程序(如随机游走[Wang等人,2018 (https://arxiv.org/html/2606.05636#bib.bib79),Ma等人,2020 (https://arxiv.org/html/2606.05636#bib.bib45),Wang等人,2023 (https://arxiv.org/html/2606.05636#bib.bib40),Zheng等人,2024 (https://arxiv.org/html/2606.05636#bib.bib41)]、PageRank [Xin等人,2023 (https://arxiv.org/html/2606.05636#bib.bib43),Lin等人,2024 (https://arxiv.org/html/2606.05636#bib.bib42)]或深度优先搜索[Chen等人,2014 (https://arxiv.org/html/2606.05636#bib.bib14),Lin等人,2018 (https://arxiv.org/html/2606.05636#bib.bib44)]对候选原因进行排序。然而,此类拓扑启发式方法可能混淆相关性或图邻近性与因果影响。最近的方法将RCA定义为结构因果模型下的干预目标识别。例如,CIRCA通过测量因果贝叶斯网络上给定父变量后条件分布的变化来识别根因[Li等人,2022 (https://arxiv.org/html/2606.05636#bib.bib15)]。在假设SCM已知的情况下,Budhathoki等人[2022 (https://arxiv.org/html/2606.05636#bib.bib74)]将异常值的根因定义为对外生噪声变量的干预,并通过噪声随机化模拟反事实分布来识别它们。尽管模型和推理存在差异,此类方法依赖于相对准确的全局图,而这在高维真实环境中往往难以获得。
**无完整结构知识的RCA。** 几种方法放宽了对完全已知因果图的需求。RCD引入辅助干预指标,并执行层次化局部条件独立性检验来识别根因候选[Ikram等人,2022 (https://arxiv.org/html/2606.05636#bib.bib13)]。RCG则使用离线学习的部分图(如CPDAG或混合图),并根据给定可能父变量后与干预指标的条件依赖关系对变量进行排序[Ikram等人,2025 (https://arxiv.org/html/2606.05636#bib.bib80)]。在单根因多树图设置下,Score Ordering在无图情况下根据边际异常分数对变量进行排序;同一工作还针对图已知设置提出了Smooth Traversal,通过父子分数差异识别根因[Orchard等人,2025 (https://arxiv.org/html/2606.05636#bib.bib17)]。同样,Li等人[2025 (https://arxiv.org/html/2606.05636#bib.bib16)]通过变量置换和Cholesky分解引入的不变性性质,建立了线性非循环SCM中单一均值偏移干预的可识别性。领域特定方法如PRISM通过利用微服务系统中的组件级知识进一步降低了结构要求[Pham,2026 (https://arxiv.org/html/2606.05636#bib.bib81)]。总体而言,现有缺乏完整结构知识的RCA方法通常依赖于局部CI测试、部分因果图或对图结构、干预类型或应用领域的限制性假设。相比之下,我们的方法结合了数据驱动的局部MB估计与条件分布偏移检测用于机制层面RCA,既不需要已知的全局图,也不需要离线学习的部分因果结构。
**非因果RCA方法。** 另一条工作线通过异常检测或统计检验处理RCA,而不进行显式因果建模。例如,ε-诊断使用双样本检验和ε统计量识别根因[Shan等人,2019 (https://arxiv.org/html/2606.05636#bib.bib12)],而BARO结合多变量贝叶斯在线变化点检测与非参数假设检验进行根因定位[Pham等人,2024 (https://arxiv.org/html/2606.05636#bib.bib82)]。这些方法可能高效且实用,但它们不显式推理干预或因果传播,因此易受虚假关联和下游异常效应的影响。
见图2:StableRCA框架示意图。它包括三个主要阶段:1) 边际分布偏移检测;2) MB识别;以及3) 条件分布偏移检测。
**分布偏移下的不变预测。** 不变预测密切相关但目标不同。它利用跨环境的分布变化来识别稳定的预测关系并去除虚假关联以实现稳健泛化,而RCA利用分布变化来定位导致异常行为的干预目标。Peters等人[2016 (https://arxiv.org/html/2606.05636#bib.bib83)]通过识别其与目标的条件关系保持不变的预测因子,将跨环境不变性与因果推理联系起来。基于此视角,Stable Learning通过独立性驱动的重要性加权识别协变量偏移下的稳定预测因子[Kuang等人,2020 (https://arxiv.org/html/2606.05636#bib.bib58),Shen等人,2020 (https://arxiv.org/html/2606.05636#bib.bib18),Zhang等人,2021 (https://arxiv.org/html/2606.05636#bib.bib59),Xu等人,2022 (https://arxiv.org/html/2606.05636#bib.bib11)]。在我们的框架中,我们借用这一思想作为稳健局部MB估计的构建块,而根因识别通过后续的条件分布偏移检测实现。
## 3 预备知识
#### 符号
设 \(\mathbf{X} = (X_1, \ldots, X_d)^T \in \mathbb{R}^d\) 表示系统变量,其中 \(X_i\) 代表第 \(i\) 个变量。我们用 \(\mathcal{D}_{\textrm{obs}} = \{\mathbf{X}_{\textrm{obs}}^{(n)}\}_{n=1}^{N_{\textrm{obs}}}\) 表示正常条件下收集的观测数据集,用 \(\mathcal{D}_{\textrm{int}} = \{\mathbf{X}_{\textrm{int}}^{(n)}\}_{n=1}^{N_{\textrm{int}}}\) 表示异常状态下收集的干预数据集。
### 3.1 SCM、干预和马尔可夫边界
我们假设系统变量 \(\mathbf{X} = \{X_1, \ldots, X_D\}\) 由因果充分且忠实的SCM生成,其因果图 \(\mathcal{G}\) 是一个DAG [Pearl, 2009 (https://arxiv.org/html/2606.05636#bib.bib9), Spirtes等人, 2000 (https://arxiv.org/html/2606.05636#bib.bib36)]。正常操作条件下的观测分布记为 \(P(\mathbf{X})\)。对于每个变量 \(X_i\),我们用 \(Pa_i\)、\(Ch_i\) 和 \(\mathrm{Sp}_i\) 分别表示其在 \(\mathcal{G}\) 中的父变量、子变量和配偶变量。其马尔可夫边界为 \(\mathrm{MB}(X_i) = Pa_i \cup Ch_i \cup \mathrm{Sp}_i\),这是在忠实性假设下使 \(X_i\) 与其余变量独立的最小局部条件集。
与 [Ikram等人, 2022 (https://arxiv.org/html/2606.05636#bib.bib13)] 类似,我们将群体层面的系统异常行为(根因)建模为对某个目标变量 \(X_i\) 的干预。具体地,如果 \(X_i\) 由结构方程 \(X_i = f_i(Pa_i, U_i)\) 生成,其中 \(U_i\) 表示外生噪声,则干预将 \(X_i\) 的原始因果机制 \(f_i\) 替换为另一个机制 \(\tilde{f}_i\),从而产生干预SCM \(\mathcal{M}^I\) 及其关联的边际分布 \(P^I(\mathbf{X})\),其中包含异常。我们假设干预是局部的,即每个干预仅影响其各自目标变量的因果机制。
我们的分析依赖于独立因果机制(或模块化)假设 [Pearl, 2009 (https://arxiv.org/html/2606.05636#bib.bib9), Schölkopf等人, 2021 (https://arxiv.org/html/2606.05636#bib.bib10)]:因果机制是自主的,因此对 \(X_i\) 的干预改变了 \(X_i\) 的机制,但非目标机制保持不变。因此,下游变量可能由于异常传播而表现出边际分布偏移,但在以适当的局部马尔可夫边界为条件时,它们的条件机制保持不变。这一观察启发我们通过条件分布偏移来识别根因,其形式为 \(P(X_i \mid \mathrm{MB}(X_i)) \neq P^I(X_i \mid \mathrm{MB}(X_i))\)。相似文章
STAR:微服务中RCA Agent的阶段归因分类与修复框架
STAR是一个阶段归因的分类与修复框架,它将基于LLM的RCA Agent工作流分解为四个结构化阶段,支持分阶段审计、反事实评估以及补丁-重放修复,以改进微服务AIOps中的根因定位和故障类型分类。
ORCA:面向优化的根本原因分析的端到端交互式副驾驶
ORCA 是一款端到端因果分析的副驾驶,利用代理引导用户完成包括因果发现、效应估计和根本原因分析在内的工作流,并生成结构化报告。
为什么检索增强生成会失败:图视角
本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。
RRISE:通过代理估计器进行鲁棒半径推断
RRISE引入了一种学习的代理估计器,将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播,在将每次查询多达10^4次评估替换为一次前向传播的同时,精度保持在0.84个百分点以内。
GraphARC:基于图结构的抽象推理综合基准
GraphARC是一个针对图结构数据抽象推理的新基准,将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距,且在大规模实例上性能下降,凸显了扩展挑战。