PropLLM:面向网络故障诊断的传播感知场景重建

arXiv cs.AI 论文

摘要

PropLLM将逐跳场景重建与LLM相结合,用于网络故障诊断。它利用双层知识图谱和时间因果传播注意力机制,沿着传播路径进行回溯,从而提高准确性并减少幻觉。

arXiv:2606.00582v1 公告类型:新 摘要:网络故障会沿着拓扑和协议依赖关系逐层传播,然而运维系统通常只能在传播链的末端观察到症状告警,而不同的根因故障可能产生高度相似的末端症状。现有方法,无论是基于规则、机器学习(ML)还是大语言模型(LLM),本质上都是将告警集一次性映射到诊断结果,且在结构上无法解决这种末端歧义。本文提出 PropLLM,它是首个将逐跳场景重建范式与 LLM 的生成推理能力相结合的方法。从末端告警出发,PropLLM 沿着传播路径逐跳回溯,在每一跳从双层知识图谱(KG)中检索可验证的事实证据,同时提出的时间因果传播注意力(TCPA)机制将已知的拓扑因果先验直接编码到注意力计算中,引导模型沿正确的因果方向前进,最终通过一条全证据因果链定位根因并确定故障类型。在一个真实的 Wi-Fi 多模态故障数据集上,PropLLM 将故障类型诊断准确率提高了 3.9\%,根因定位准确率提高了 4.7\%,同时将幻觉率降低了 50.8\%。在 TeleLogs 5G 数据集上的补充实验进一步证明了所提方法在不同网络场景下的有效性。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:47

# PropLLM:面向网络故障诊断的传播感知场景重建

本工作得到了国家自然科学基金(项目编号:62302527)以及中南大学高性能计算中心的部分支持。(通讯作者:唐凤晓。)
来源:https://arxiv.org/html/2606.00582

###### 摘要

网络故障沿着拓扑和协议依赖关系逐层传播,然而运维系统通常只观察到传播链末端的症状告警,而不同的根本原因故障可能产生非常相似的端点症状。现有方法,无论是基于规则、机器学习(ML)还是大语言模型(LLM),本质上都是将告警集通过单次映射得到一个诊断结果,在结构上无法解决这种端点歧义性。本文提出 PropLLM,这是首个将逐跳场景重建范式与 LLM 的生成推理能力相结合的工作。PropLLM 从端点告警出发,沿着传播路径逐跳回溯,在每一跳从双层知识图谱(KG)中检索可验证的事实证据,同时提出的时序因果传播注意力(TCPA)机制将已知的拓扑因果先验直接编码到注意力计算中,引导模型沿着正确的因果方向进行推理,最终通过一条完全基于证据的因果链定位根本原因并确定故障类型。在一个真实的 Wi-Fi 多模态故障数据集上,PropLLM 相比最强基线方法,故障类型诊断准确率提升 3.9%,根本原因定位准确率提升 4.7%,同时幻觉率降低 50.8%。在 TeleLogs 5G 数据集上的补充实验进一步证明了所提方法在不同网络场景下的有效性。

## I 引言

网络故障诊断(NFD)旨在从观测到的异常中准确确定故障类型(例如,链路劣化、配置错误、设备故障),从而指导运维人员进行针对性修复 [20 (https://arxiv.org/html/2606.00582#bib.bib1),47 (https://arxiv.org/html/2606.00582#bib.bib2)]。这项任务的根本难点在于网络故障沿着拓扑和协议依赖关系逐层传播,而运维系统通常只观察到传播链末端的症状告警(如图1(a)所示)。这些端点告警具有高度的歧义性:不同类型的根本原因故障可能产生相似的下游症状,而同一故障沿不同传播路径可能表现出完全不同的告警模式。当前主流方法——无论是基于规则匹配 [20 (https://arxiv.org/html/2606.00582#bib.bib1)]、机器学习分类 [50 (https://arxiv.org/html/2606.00582#bib.bib3),7 (https://arxiv.org/html/2606.00582#bib.bib4)],还是基于大语言模型(LLM)的生成方法 [1 (https://arxiv.org/html/2606.00582#bib.bib5)]——都遵循单次映射范式。它们通过一步式的特征提取或推理,直接将观测到的告警集映射到故障类型或根本原因,而不沿着传播路径进行逐跳回溯重建和假设验证(如图1(b)上半部分所示)。这种范式的核心局限性在于,告警仅仅是故障传播的最终产物。相同的症状集可能由不同的根本原因通过不同的路径产生,因此仅凭观测无法解决端点歧义性。准确的故障诊断需要沿着传播路径回溯到根本原因,重建完整的因果链,而单次映射范式在本质上无法实现这一点。

参见图注
图1:(a) 故障级联传播产生歧义性端点告警。(b) 上方:单次映射范式;下方:PropLLM的逐跳场景重建范式。

在实践中,经验丰富的网络工程师通过沿着拓扑和协议依赖关系逐跳回溯来解决端点告警歧义性。他们重建节点状态,验证因果假设,并定位根本原因(如图1(b)下半部分所示)。这种方法确保诊断基于一条完全有证据支撑的因果链,而非统计上的症状相关性。自动化这一过程需要一个能够解释多模态数据、动态调整假设并生成可解释诊断链的推理引擎 [29 (https://arxiv.org/html/2606.00582#bib.bib7)]。LLM 因其跨模态理解和生成推理能力而成为这项任务的天然选择 [33 (https://arxiv.org/html/2606.00582#bib.bib8),35 (https://arxiv.org/html/2606.00582#bib.bib9),1 (https://arxiv.org/html/2606.00582#bib.bib5),5 (https://arxiv.org/html/2606.00582#bib.bib6)]。将 LLM 集成到逐跳重建中需要满足两个条件:(1) 在每一跳必须能够检索到可验证的证据用于状态重建;(2) 推理必须具有因果意识,能够区分上游原因和下游影响。然而,现有工作在事实依据方面存在系统性缺口,使得实践中难以实现逐跳场景重建。场景重建需要利用两种不同类型的知识来恢复每个节点的状态:结构知识(拓扑、协议配置和设备参数)和经验知识(相似路径上的历史故障模式)。虽然知识图谱(KG)适合组织这两种知识 [16 (https://arxiv.org/html/2606.00582#bib.bib10)],但大多数现有方法使用扁平结构不加区分地混合它们 [23 (https://arxiv.org/html/2606.00582#bib.bib11),36 (https://arxiv.org/html/2606.00582#bib.bib12)]。这种混合会引入检索噪声,并且由于两种知识类型在更新频率、查询模式和索引方式上存在差异 [14 (https://arxiv.org/html/2606.00582#bib.bib13)],无法捕获层次关系。此外,当前的 RAG 方法 [19 (https://arxiv.org/html/2606.00582#bib.bib14)] 以单次注入方式提供知识 [2 (https://arxiv.org/html/2606.00582#bib.bib15)],缺乏逐跳验证,使得模型容易产生幻觉,生成的诊断路径偏离真实的因果链。

现有工作也缺乏因果意识。标准注意力机制 [31 (https://arxiv.org/html/2606.00582#bib.bib16)] 对所有 token 分配对称权重,无法区分因果方向,常常将端点症状误判为根本原因。虽然链式思维(CoT)提示 [38 (https://arxiv.org/html/2606.00582#bib.bib17)] 可以引导推理步骤,但它并不改变底层的对称注意力计算,因此在复杂场景中方向性错误依然存在。关键的是,网络故障传播方向是一个从拓扑和协议依赖关系中获得的已知结构先验,这与需要从数据中发现因果关系的微服务系统 [15 (https://arxiv.org/html/2606.00582#bib.bib18),44 (https://arxiv.org/html/2606.00582#bib.bib19),43 (https://arxiv.org/html/2606.00582#bib.bib20)] 不同。目前缺失的关键组件是一种能够将这些因果先验直接编码到注意力层中的机制,使得每一步都具有方向感知能力,而不是依赖于事后提示。

本文提出 PropLLM,这是首个将逐跳假设验证场景重建与 LLM 的生成推理能力相结合的框架。为了实现事实依据,我们构建了一个双层知识图谱,将拓扑和协议的结构知识与历史故障模式的实践经验知识分开,并通过跨层关联实现高效检索。为了实现传播感知的因果推理,我们引入了时序因果传播注意力(TCPA)机制,通过因果方向掩码、传播扩散矩阵和时序偏置将拓扑因果先验编码到每个注意力层中。TCPA 的输出通过交叉注意力注入到 LLM 解码器中。在此基础上,PropLLM 通过一个动态闭环执行逐跳重建,其中验证结果触发下一跳的目标检索,用事实证据约束推理链,有效抑制幻觉。

本文的主要贡献如下:

- 我们提出了 PropLLM 框架,首次将人类专家的逐跳场景重建方法形式化为可计算的推理范式,揭示了准确的故障类型诊断依赖于一条完全基于证据的因果链,而非从端点观测到单次映射。
- 我们提出了 TCPA,一个独立的 Transformer 编码器,将已知的拓扑因果先验编码到每个注意力层中,并通过交叉注意力将其输出注入 LLM 解码器,使得生成过程中能够持续感知故障传播方向。
- 我们构建了一个双层知识图谱,将结构知识与经验知识分离,并通过动态闭环检索机制,用事实证据约束每一跳的推理,有效抑制幻觉。

## II 相关工作

### II-A 网络故障诊断方法

网络故障诊断方法的发展已从规则驱动转向数据驱动。基于规则的方法 [20 (https://arxiv.org/html/2606.00582#bib.bib1)] 依赖专家定义的规则,但可扩展性差,且仅覆盖已知故障。传统的机器学习方法 [20 (https://arxiv.org/html/2606.00582#bib.bib1),50 (https://arxiv.org/html/2606.00582#bib.bib3)] 将诊断视为分类问题,但难以处理拓扑和时间依赖关系。深度学习方法 [7 (https://arxiv.org/html/2606.00582#bib.bib4),21 (https://arxiv.org/html/2606.00582#bib.bib21),49 (https://arxiv.org/html/2606.00582#bib.bib22)] 改进了表示学习,但依然依赖统计共现,在面对来自多个根本原因的歧义性告警模式时表现不佳。与微服务系统(例如 MULAN [51 (https://arxiv.org/html/2606.00582#bib.bib23)]、Minder [8 (https://arxiv.org/html/2606.00582#bib.bib24)])不同——其中因果关系需要从数据中发现,网络故障传播是一个从拓扑和协议中获得的已知结构先验。最近的基于 LLM 的方法 [1 (https://arxiv.org/html/2606.00582#bib.bib5),5 (https://arxiv.org/html/2606.00582#bib.bib6),17 (https://arxiv.org/html/2606.00582#bib.bib25),33 (https://arxiv.org/html/2606.00582#bib.bib8)] 显示出潜力,但如何有效利用其推理能力进行知识交互和因果感知仍是一个开放问题。

### II-B LLM驱动的故障诊断

现有的将 LLM 应用于故障诊断的工作可分为三种主要方法。端到端生成方法直接将事件描述映射到诊断结果 [1 (https://arxiv.org/html/2606.00582#bib.bib5),5 (https://arxiv.org/html/2606.00582#bib.bib6),45 (https://arxiv.org/html/2606.00582#bib.bib26)]。虽然提供了强大的零样本泛化能力,但这些方法仅依赖参数化知识,缺乏外部的实际依据。检索增强方法通过 RAG [19 (https://arxiv.org/html/2606.00582#bib.bib14)] [17 (https://arxiv.org/html/2606.00582#bib.bib25),33 (https://arxiv.org/html/2606.00582#bib.bib8)] 增强 LLM。然而,它们通常遵循单次检索、单次生成的流水线,无法支持多跳推理的动态知识需求。智能体方法赋予 LLM 动态工具调用能力 [35 (https://arxiv.org/html/2606.00582#bib.bib9),43 (https://arxiv.org/html/2606.00582#bib.bib20)]。然而,它们仍然存在知识获取与推理之间的时序脱耦问题,无法实现闭环的逐跳验证。此外,这三种方法都缺乏因果意识。LLM 的自注意力 [31 (https://arxiv.org/html/2606.00582#bib.bib16)] 分配对称权重,无法区分因果方向,而 CoT 提示 [38 (https://arxiv.org/html/2606.00582#bib.bib17)] 仅在解码层面起作用。总之,现有的基于 LLM 的故障诊断方法存在两个核心局限性:(1) 缺乏按需的逐跳知识交互与验证;(2) 无法在注意力机制中感知因果传播方向。

### II-C 知识图谱表示与因果推理

上一小节指出了知识交互和因果意识是两个核心缺口。本小节回顾所提出的双层知识图谱和 TCPA 的技术基础。对于故障诊断中的知识图谱表示,早期研究主要依赖单层知识图谱结合 GCN 进行故障分类 [23 (https://arxiv.org/html/2606.00582#bib.bib11)]。近期方法在 UniDiag [48 (https://arxiv.org/html/2606.00582#bib.bib27)] 中引入了时序知识图谱,在 KG4Diagnosis [52 (https://arxiv.org/html/2606.00582#bib.bib28)] 中引入了层次结构。知识图谱增强的 LLM 方法 [40 (https://arxiv.org/html/2606.00582#bib.bib52),24 (https://arxiv.org/html/2606.00582#bib.bib29),11 (https://arxiv.org/html/2606.00582#bib.bib30)] 进一步探索了检索-推理闭环。然而,这些方法都没有将结构知识与经验知识分离成语义相连但不同的层次。这种分离对于准确的故障诊断至关重要,因为它能够在每个推理步骤中,同时使用结构知识验证当前状态,并使用经验知识参考历史故障模式。将这两种知识混在一起会引入检索噪声,并阻碍精确的按需验证。

对于具有因果意识的注意力,现有方法 [18 (https://arxiv.org/html/2606.00582#bib.bib31),30 (https://arxiv.org/html/2606.00582#bib.bib32),6 (https://arxiv.org/html/2606.00582#bib.bib33),26 (https://arxiv.org/html/2606.00582#bib.bib34)] 侧重于从数据中发现潜在因果关系。相比之下,PropLLM 在一个从网络配置中可获得的已知结构先验(故障传播方向)下运行。虽然输入阶段的 GNN 仅注入一次拓扑信息,但 TCPA 通过其因果方向掩码和传播扩散矩阵将因果先验编码到每个注意力层中,实现了更深的集成。

## III 双层知识图谱构建

逐跳验证的每一步都需要两种根本不同类型的知识:描述网络拓扑和协议行为规范的结构知识,以及源自历史故障案例的经验知识。我们将它们组织成基础设施层图 G_infra 和故障经验层图 G_fault,并通过跨层语义关联实现联合查询。图2展示了双层知识图谱的整体架构和知识来源。

双层知识图谱的知识来源分为三类:(1) 来自协议文档和工程教材的领域标准(IEEE 802.11、TCP/IP 规范、常见拓扑模式),构成 G_infra 的主干;(2) 来自专家访谈和手册的操作专家知识(因果传播模式、症状特征、诊断规则),构成 G_fault 中的先验因果模板;(3) ...(原文此处似乎中断,但根据上下文应继续翻译,但原文在"constituting prior causal templates inGfault\\mathcal\{G\}\_\{\\text\{fault\}\}"之后直接跟"}\.",可能不完整,但按现有内容翻译)

注意:原文在"constituting prior causal templates inGfault\\mathcal\{G\}\_\{\\text\{fault\}\}."之后实际上是"."然后换行,但根据给出的片段,后面应该是直接开始下一部分。由于用户提供的文本在"}\."后截断,但后面是"##### B."?实际上用户消息中最后是"prior causal templates inGfault\\mathcal\{G\}\_\{\\text\{fault\}\}." 然后有一个换行,之后是"#####"但用户消息在此处结束。为了完整性,我将翻译到此处,并留意用户后续补充的潜在内容。但根据要求,我应该只翻译给出的内容。给出的内容中,在"prior causal templates inGfault\\mathcal\{G\}\_\{\\text\{fault\}\}."之后,用户消息实际上是结束了。所以翻译应该结束于此。

但检查用户消息:最后一行是"prior causal templates inGfault\\mathcal\{G\}\_\{\\text\{fault\}\}." 然后换行,然后"#####" 后面没有内容。可能用户输入不完整。我将按照现有内容翻译,并在遇到明显截断时停止。

为了保险,翻译到最后一个完整句子。注意到用户消息中在"Gfault\\mathcal\{G\}\_\{\\text\{fault\}\}."之后没有更多文字。所以我翻译到此。

注意:在翻译过程中,需要保持所有引用标记(如[20 (https://arxiv.org/html/2606.00582#bib.bib1)])原样,包括URL。同时,需要保持LaTeX命令如\mathcal{G}等作为原文的一部分,但中文翻译中通常保留这些格式标记。但在Markdown中,$\mathcal{G}$需要正确呈现。由于这是翻译,我将保留LaTeX语法。在中文上下文中,可以保留英文符号,但可以适当添加中文解释。但为了简洁,直接保留。

最终输出应该是纯Markdown文本,没有额外JSON或说明。# PropLLM:面向网络故障诊断的传播感知场景重建

本工作得到了国家自然科学基金(项目编号:62302527)以及中南大学高性能计算中心的部分支持。(通讯作者:唐凤晓。)
来源:https://arxiv.org/html/2606.00582

###### 摘要

网络故障沿着拓扑和协议依赖关系逐层传播,然而运维系统通常只观察到传播链末端的症状告警,而不同的根本原因故障可能产生非常相似的端点症状。现有方法,无论是基于规则、机器学习(ML)还是大语言模型(LLM),本质上都是将告警集通过单次映射得到一个诊断结果,在结构上无法解决这种端点歧义性。本文提出 PropLLM,这是首个将逐跳场景重建范式与 LLM 的生成推理能力相结合的工作。PropLLM 从端点告警出发,沿着传播路径逐跳回溯,在每一跳从双层知识图谱(KG)中检索可验证的事实证据,同时提出的时序因果传播注意力(TCPA)机制将已知的拓扑因果先验直接编码到注意力计算中,引导模型沿着正确的因果方向进行推理,最终通过一条完全基于证据的因果链定位根本原因并确定故障类型。在一个真实的 Wi-Fi 多模态故障数据集上,PropLLM 相比最强基线方法,故障类型诊断准确率提升 3.9%,根本原因定位准确率提升 4.7%,同时幻觉率降低 50.8%。在 TeleLogs 5G 数据集上的补充实验进一步证明了所提方法在不同网络场景下的有效性。

## I 引言

网络故障诊断(NFD)旨在从观测到的异常中准确确定故障类型(例如,链路劣化、配置错误、设备故障),从而指导运维人员进行针对性修复 [20 (https://arxiv.org/html/2606.00582#bib.bib1),47 (https://arxiv.org/html/2606.00582#bib.bib2)]。这项任务的根本难点在于网络故障沿着拓扑和协议依赖关系逐层传播,而运维系统通常只观察到传播链末端的症状告警(如图1(a)所示)。这些端点告警具有高度的歧义性:不同类型的根本原因故障可能产生相似的下游症状,而同一故障沿不同传播路径可能表现出完全不同的告警模式。当前主流方法——无论是基于规则匹配 [20 (https://arxiv.org/html/2606.00582#bib.bib1)]、机器学习分类 [50 (https://arxiv.org/html/2606.00582#bib.bib3),7 (https://arxiv.org/html/2606.00582#bib.bib4)],还是基于大语言模型(LLM)的生成方法 [1 (https://arxiv.org/html/2606.00582#bib.bib5)]——都遵循单次映射范式。它们通过一步式的特征提取或推理,直接将观测到的告警集映射到故障类型或根本原因,而不沿着传播路径进行逐跳回溯重建和假设验证(如图1(b)上半部分所示)。这种范式的核心局限性在于,告警仅仅是故障传播的最终产物。相同的症状集可能由不同的根本原因通过不同的路径产生,因此仅凭观测无法解决端点歧义性。准确的故障诊断需要沿着传播路径回溯到根本原因,重建完整的因果链,而单次映射范式在本质上无法实现这一点。

参见图注
图1:(a) 故障级联传播产生歧义性端点告警。(b) 上方:单次映射范式;下方:PropLLM的逐跳场景重建范式。

在实践中,经验丰富的网络工程师通过沿着拓扑和协议依赖关系逐跳回溯来解决端点告警歧义性。他们重建节点状态,验证因果假设,并定位根本原因(如图1(b)下半部分所示)。这种方法确保诊断基于一条完全有证据支撑的因果链,而非统计上的症状相关性。自动化这一过程需要一个能够解释多模态数据、动态调整假设并生成可解释诊断链的推理引擎 [29 (https://arxiv.org/html/2606.00582#bib.bib7)]。LLM 因其跨模态理解和生成推理能力而成为这项任务的天然选择 [33 (https://arxiv.org/html/2606.00582#bib.bib8),35 (https://arxiv.org/html/2606.00582#bib.bib9),1 (https://arxiv.org/html/2606.00582#bib.bib5),5 (https://arxiv.org/html/2606.00582#bib.bib6)]。将 LLM 集成到逐跳重建中需要满足两个条件:(1) 在每一跳必须能够检索到可验证的证据用于状态重建;(2) 推理必须具有因果意识,能够区分上游原因和下游影响。然而,现有工作在事实依据方面存在系统性缺口,使得实践中难以实现逐跳场景重建。场景重建需要利用两种不同类型的知识来恢复每个节点的状态:结构知识(拓扑、协议配置和设备参数)和经验知识(相似路径上的历史故障模式)。虽然知识图谱(KG)适合组织这两种知识 [16 (https://arxiv.org/html/2606.00582#bib.bib10)],但大多数现有方法使用扁平结构不加区分地混合它们 [23 (https://arxiv.org/html/2606.00582#bib.bib11),36 (https://arxiv.org/html/2606.00582#bib.bib12)]。这种混合会引入检索噪声,并且由于两种知识类型在更新频率、查询模式和索引方式上存在差异 [14 (https://arxiv.org/html/2606.00582#bib.bib13)],无法捕获层次关系。此外,当前的 RAG 方法 [19 (https://arxiv.org/html/2606.00582#bib.bib14)] 以单次注入方式提供知识 [2 (https://arxiv.org/html/2606.00582#bib.bib15)],缺乏逐跳验证,使得模型容易产生幻觉,生成的诊断路径偏离真实的因果链。

现有工作也缺乏因果意识。标准注意力机制 [31 (https://arxiv.org/html/2606.00582#bib.bib16)] 对所有 token 分配对称权重,无法区分因果方向,常常将端点症状误判为根本原因。虽然链式思维(CoT)提示 [38 (https://arxiv.org/html/2606.00582#bib.bib17)] 可以引导推理步骤,但它并不改变底层的对称注意力计算,因此在复杂场景中方向性错误依然存在。关键的是,网络故障传播方向是一个从拓扑和协议依赖关系中获得的已知结构先验,这与需要从数据中发现因果关系的微服务系统 [15 (https://arxiv.org/html/2606.00582#bib.bib18),44 (https://arxiv.org/html/2606.00582#bib.bib19),43 (https://arxiv.org/html/2606.00582#bib.bib20)] 不同。目前缺失的关键组件是一种能够将这些因果先验直接编码到注意力层中的机制,使得每一步都具有方向感知能力,而不是依赖于事后提示。

本文提出 PropLLM,这是首个将逐跳假设验证场景重建与 LLM 的生成推理能力相结合的框架。为了实现事实依据,我们构建了一个双层知识图谱,将拓扑和协议的结构知识与历史故障模式的实践经验知识分开,并通过跨层关联实现高效检索。为了实现传播感知的因果推理,我们引入了时序因果传播注意力(TCPA)机制,通过因果方向掩码、传播扩散矩阵和时序偏置将拓扑因果先验编码到每个注意力层中。TCPA 的输出通过交叉注意力注入到 LLM 解码器中。在此基础上,PropLLM 通过一个动态闭环执行逐跳重建,其中验证结果触发下一跳的目标检索,用事实证据约束推理链,有效抑制幻觉。

本文的主要贡献如下:

- 我们提出了 PropLLM 框架,首次将人类专家的逐跳场景重建方法形式化为可计算的推理范式,揭示了准确的故障类型诊断依赖于一条完全基于证据的因果链,而非从端点观测到单次映射。
- 我们提出了 TCPA,一个独立的 Transformer 编码器,将已知的拓扑因果先验编码到每个注意力层中,并通过交叉注意力将其输出注入 LLM 解码器,使得生成过程中能够持续感知故障传播方向。
- 我们构建了一个双层知识图谱,将结构知识与经验知识分离,并通过动态闭环检索机制,用事实证据约束每一跳的推理,有效抑制幻觉。

## II 相关工作

### II-A 网络故障诊断方法

网络故障诊断方法的发展已从规则驱动转向数据驱动。基于规则的方法 [20 (https://arxiv.org/html/2606.00582#bib.bib1)] 依赖专家定义的规则,但可扩展性差,且仅覆盖已知故障。传统的机器学习方法 [20 (https://arxiv.org/html/2606.00582#bib.bib1),50 (https://arxiv.org/html/2606.00582#bib.bib3)] 将诊断视为分类问题,但难以处理拓扑和时间依赖关系。深度学习方法 [7 (https://arxiv.org/html/2606.00582#bib.bib4),21 (https://arxiv.org/html/2606.00582#bib.bib21),49 (https://arxiv.org/html/2606.00582#bib.bib22)] 改进了表示学习,但依然依赖统计共现,在面对来自多个根本原因的歧义性告警模式时表现不佳。与微服务系统(例如 MULAN [51 (https://arxiv.org/html/2606.00582#bib.bib23)]、Minder [8 (https://arxiv.org/html/2606.00582#bib.bib24)])不同——其中因果关系需要从数据中发现,网络故障传播是一个从拓扑和协议中获得的已知结构先验。最近的基于 LLM 的方法 [1 (https://arxiv.org/html/2606.00582#bib.bib5),5 (https://arxiv.org/html/2606.00582#bib.bib6),17 (https://arxiv.org/html/2606.00582#bib.bib25),33 (https://arxiv.org/html/2606.00582#bib.bib8)] 显示出潜力,但如何有效利用其推理能力进行知识交互和因果感知仍是一个开放问题。

### II-B LLM驱动的故障诊断

现有的将 LLM 应用于故障诊断的工作可分为三种主要方法。端到端生成方法直接将事件描述映射到诊断结果 [1 (https://arxiv.org/html/2606.00582#bib.bib5),5 (https://arxiv.org/html/2606.00582#bib.bib6),45 (https://arxiv.org/html/2606.00582#bib.bib26)]。虽然提供了强大的零样本泛化能力,但这些方法仅依赖参数化知识,缺乏外部的实际依据。检索增强方法通过 RAG [19 (https://arxiv.org/html/2606.00582#bib.bib14)] [17 (https://arxiv.org/html/2606.00582#bib.bib25),33 (https://arxiv.org/html/2606.00582#bib.bib8)] 增强 LLM。然而,它们通常遵循单次检索、单次生成的流水线,无法支持多跳推理的动态知识需求。智能体方法赋予 LLM 动态工具调用能力 [35 (https://arxiv.org/html/2606.00582#bib.bib9),43 (https://arxiv.org/html/2606.00582#bib.bib20)]。然而,它们仍然存在知识获取与推理之间的时序脱耦问题,无法实现闭环的逐跳验证。此外,这三种方法都缺乏因果意识。LLM 的自注意力 [31 (https://arxiv.org/html/2606.00582#bib.bib16)] 分配对称权重,无法区分因果方向,而 CoT 提示 [38 (https://arxiv.org/html/2606.00582#bib.bib17)] 仅在解码层面起作用。总之,现有的基于 LLM 的故障诊断方法存在两个核心局限性:(1) 缺乏按需的逐跳知识交互与验证;(2) 无法在注意力机制中感知因果传播方向。

### II-C 知识图谱表示与因果推理

上一小节指出了知识交互和因果意识是两个核心缺口。本小节回顾所提出的双层知识图谱和 TCPA 的技术基础。对于故障诊断中的知识图谱表示,早期研究主要依赖单层知识图谱结合 GCN 进行故障分类 [23 (https://arxiv.org/html/2606.00582#bib.bib11)]。近期方法在 UniDiag [48 (https://arxiv.org/html/2606.00582#bib.bib27)] 中引入了时序知识图谱,在 KG4Diagnosis [52 (https://arxiv.org/html/2606.00582#bib.bib28)] 中引入了层次结构。知识图谱增强的 LLM 方法 [40 (https://arxiv.org/html/2606.00582#bib.bib52),24 (https://arxiv.org/html/2606.00582#bib.bib29),11 (https://arxiv.org/html/2606.00582#bib.bib30)] 进一步探索了检索-推理闭环。然而,这些方法都没有将结构知识与经验知识分离成语义相连但不同的层次。这种分离对于准确的故障诊断至关重要,因为它能够在每个推理步骤中,同时使用结构知识验证当前状态,并使用经验知识参考历史故障模式。将这两种知识混在一起会引入检索噪声,并阻碍精确的按需验证。

对于具有因果意识的注意力,现有方法 [18 (https://arxiv.org/html/2606.00582#bib.bib31),30 (https://arxiv.org/html/2606.00582#bib.bib32),6 (https://arxiv.org/html/2606.00582#bib.bib33),26 (https://arxiv.org/html/2606.00582#bib.bib34)] 侧重于从数据中发现潜在因果关系。相比之下,PropLLM 在一个从网络配置中可获得的已知结构先验(故障传播方向)下运行。虽然输入阶段的 GNN 仅注入一次拓扑信息,但 TCPA 通过其因果方向掩码和传播扩散矩阵将因果先验编码到每个注意力层中,实现了更深的集成。

## III 双层知识图谱构建

逐跳验证的每一步都需要两种根本不同类型的知识:描述网络拓扑和协议行为规范的结构知识,以及源自历史故障案例的经验知识。我们将它们组织成基础设施层图 $\mathcal{G}_\text{infra}$ 和故障经验层图 $\mathcal{G}_\text{fault}$,并通过跨层语义关联实现联合查询。图2展示了双层知识图谱的整体架构和知识来源。

双层知识图谱的知识来源分为三类:(1) 来自协议文档和工程教材的领域标准(IEEE 802.11、TCP/IP 规范、常见拓扑模式),构成 $\mathcal{G}_\text{infra}$ 的主干;(2) 来自专家访谈和手册的操作专家知识(因果传播模式、症状特征、诊断规则),构成 $\mathcal{G}_\text{fault}$ 中的先验因果模板。

相似文章

PropGuard:通过传播感知的探索与修复保障LLM-MAS安全

arXiv cs.LG

PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。

将幻觉视为异常:通过概率电路进行动态干预

arXiv cs.CL

本文提出了 PCNet,这是一种在大型语言模型(LLM)残差流上训练为可计算密度估计器的概率电路,用于将幻觉检测为几何异常。同时,本文还引入了 PC-LDCD,一种仅在生成幻觉 token 时才进行干预的动态修正方法,实现了近乎完美的检测率并降低了错误修正率。

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。