STAR:微服务中RCA Agent的阶段归因分类与修复框架
摘要
STAR是一个阶段归因的分类与修复框架,它将基于LLM的RCA Agent工作流分解为四个结构化阶段,支持分阶段审计、反事实评估以及补丁-重放修复,以改进微服务AIOps中的根因定位和故障类型分类。
arXiv:2605.15581v1 公告类型:新
摘要:基于大语言模型(LLM)的根因分析(RCA)Agent 最近成为微服务 AIOps 中事件诊断的一种有前景的范式。然而,其可靠性仍然脆弱:早期证据收集、假设制定或因果分析中的错误可能会沿着推理轨迹传播,最终破坏最终诊断。在本文中,我们提出了 \textbf{STAR},一个用于修复错误 RCA 轨迹的 \emph{阶段归因分类与修复}框架。STAR 明确将 RCA 工作流分解为四个结构化阶段,即 \emph{证据包(Evidence Package, EP)}、\emph{假设集(Hypothesis Set, HS)}、\emph{分析结构(Analysis Structure, AS)}和 \emph{决策报告(Decision Report, DR)},并将 Agent 失败视为一个可在阶段定位的推理错误,而非单一片段端到端错误。STAR 基于 LangGraph 构建,执行分阶段审计、预算感知的 \emph{快速/慢速路由}、\emph{通过反事实候选评估进行决定性阶段定位}以及阶段特定的补丁-重放修复。
我们在一个公共大规模基准测试和一个真实生产数据集上,使用两种 RCA Agent 工作流和三种基础模型对 STAR 进行了评估。实验结果表明,STAR 在根因定位和故障类型分类上均持续优于强基线。此外,STAR 能以高精度识别决定性故障阶段,在1到2次重放回合内修复大多数初始错误轨迹,并显著受益于快速/慢速路由和反事实阶段评估。这些结果表明,显式建模 RCA Agent \emph{在何处}失败,是通往可靠、可调试且可自我修复的自主 RCA 系统的有效途径。
查看缓存全文
缓存时间: 2026/05/18 06:33
# 面向微服务RCA Agent的阶段属性化分类与修复框架
Source: https://arxiv.org/html/2605.15581
###### 摘要
基于LLM的根因分析(RCA)Agent近期已成为微服务AIOps中事件诊断的一种有前景的范式。然而,其可靠性仍然脆弱:早期证据收集、假设形成或因果分析中的错误可能会沿着推理轨迹传播,最终破坏最终诊断。在本文中,我们提出STAR,一个面向阶段属性化分类与修复的框架,用于修复错误的RCA轨迹。STAR将RCA工作流明确分解为四个结构化阶段,即证据包(EP)、假设集(HS)、分析结构(AS)和决策报告(DR),并将Agent失败视为可阶段定位的推理错误,而非整体性的端到端错误。基于LangGraph构建,STAR执行阶段级审计、预算感知的快速/慢速路由、通过反事实候选评估进行关键阶段定位,以及特定阶段的补丁与重放修复。
我们在公开的大规模基准测试和一个真实生产数据集上,使用两个RCA Agent工作流和三个基础模型进行了评估。实验结果表明,STAR在根因定位和故障类型分类上均持续优于强基线。此外,STAR以高精度识别出关键故障阶段,在一次或两次重放轮次内修复了大部分最初错误的轨迹,并且从快速/慢速路由和反事实阶段评估中显著受益。这些结果表明,显式建模RCA Agent的失败位置是构建可靠、可调试且可自我修复的Agent式RCA系统的有效途径。
## I 引言
微服务架构因其可扩展性、灵活性和对独立部署的支持,已成为大规模云应用的主导范式。然而,同样的去中心化特性在实现快速迭代的同时,也使得可靠性工程变得更具挑战性。单一故障可能跨服务、Pod或节点传播,而其可观测的症状往往出现在距离真正根源很远的地方。因此,微服务中的根因分析(RCA)既在运维上至关重要,又本质困难[1 (https://arxiv.org/html/2605.15581#bib.bib1),2 (https://arxiv.org/html/2605.15581#bib.bib2),3 (https://arxiv.org/html/2605.15581#bib.bib3),5 (https://arxiv.org/html/2605.15581#bib.bib5),7 (https://arxiv.org/html/2605.15581#bib.bib7)]。
大型语言模型(LLM)的最新进展催生了一类新的基于LLM的RCA Agent,它们对多模态可观测性信号——指标、日志和调用链——进行推理,以推断根因并生成诊断解释。与传统的基于相关性或基于图的RCA流水线相比,这些Agent更能适应开放环境,并且更善于综合异构证据[26 (https://arxiv.org/html/2605.15581#bib.bib26),28 (https://arxiv.org/html/2605.15581#bib.bib28),10 (https://arxiv.org/html/2605.15581#bib.bib10),13 (https://arxiv.org/html/2605.15581#bib.bib13),14 (https://arxiv.org/html/2605.15581#bib.bib14)]。然而,其实际效用仍受到推理过程本身脆弱性的限制。在RCA中,即使是证据范围界定、假设形成或因果解释中的微小错误,也可能传播到后续推理步骤,并最终导致错误的诊断。
这个问题在微服务RCA中尤为突出,因为该任务本质上是结构化的。正确的诊断不仅依赖于文本的合理性,还依赖于遥测一致性、因果可达性、时间顺序和部署拓扑。因此,仅从原始的、自由形式的推理轨迹来调试RCA Agent往往是不可靠且低效的:这类轨迹充满噪声,关键错误难以隔离,并且重新生成长轨迹成本高昂。更重要的是,纠正一个孤立的推理步骤往往无法解决实际的失败根源,因为后者通常位于更高级别的工作流产物中,例如不完整的证据、有偏差的假设、不可行的因果链或不稳定的最终决策。
这些观察引出了一个面向过程的问题:除了询问哪个服务是故障的,我们能否确定RCA工作流的哪个阶段是故障的,并通过仅重放受影响的下游阶段来修复诊断?为了回答这个问题,我们提出了STAR(阶段属性化分类与修复,Stage-attributed Triage And Repair),这是一个用于基于LLM的RCA Agent的调试与修复层。STAR将RCA轨迹显式分解为四个结构化产物:证据包(EP)、假设集(HS)、分析结构(AS)和决策报告(DR)。STAR不将Agent失败视为黑盒端到端错误,而是将其建模为一个可阶段定位的推理错误。它首先审计RCA轨迹,然后识别关键故障阶段,修补相应的产物,最后仅重放下游推理以消除错误传播。
为了使这一修复过程实用化,STAR集成了三个关键机制。首先,它执行阶段级审计与诊断,将模糊的失败信号转化为明确的阶段级不一致证据。其次,它采用快速/慢速路由来平衡修正成本与效果:对接近正确的轨迹应用轻量级局部修复,而对严重污染的情况采用基于重放的定位。第三,STAR引入了通过反事实候选评估进行关键阶段定位,即通过重放下游阶段并检查修复后的轨迹是否有所改善来评估候选阶段修复。这使得STAR不仅能识别可疑阶段,还能找出其修正能恢复RCA一致性的最早阶段。基于LangGraph构建,STAR进一步利用节点级重放和结构化状态产物来实现可控实现和系统性修复分析。
在公开的AIOps基准测试和一个真实生产数据集上的实验表明,STAR在两个Agent工作流和三个基础模型上持续提升了端到端RCA性能。特别地,STAR在原始工作流基础上显著改善了根因定位和故障类型分类,以高精度识别关键故障阶段,并在一次或两次重放轮次内修复了大部分最初错误的轨迹。额外的消融研究进一步表明,快速/慢速路由和反事实关键阶段定位都对修复效率和最终诊断准确性有显著贡献。
总之,本文做出以下贡献:
- • 我们提出了STAR,一个面向基于LLM的RCA Agent的阶段属性化调试与重放框架,它将RCA分解为四个结构化阶段,并支持阶段级审计、关键阶段定位、修补和下游重放。
- • 我们设计了两种用于有效修复的关键机制:用于预算感知修正的快速/慢速路由,以及用于关键阶段定位的反事实候选评估。
- • 在公开和真实世界数据集上的大量实验表明,STAR在数据集、工作流和基础模型上持续改善了诊断质量、阶段归因准确性和修复效率。
## II 预备知识与动机
### II-A 微服务根因分析
现代云原生应用日益基于微服务架构构建,其中功能被分解为可独立部署的服务,通过复杂的运行时依赖相互连接。虽然这种设计提高了可扩展性和敏捷性,但也使可靠性管理变得更加困难:故障可能跨服务传播,而观察到的症状往往出现在远离真正根源的地方。因此,微服务中的根因分析(RCA)不仅旨在识别最可能的故障实体(例如主机、Pod或服务),还要解释故障如何在系统中传播。
在实践中,有效的RCA依赖于多模态可观测性信号——指标、日志和调用链——以及捕获服务交互和部署结构的依赖信息。先前研究表明,微服务中的稳健故障定位关键取决于对遥测和拓扑的联合推理,特别是在噪声、不完整和动态变化的环境中[8 (https://arxiv.org/html/2605.15581#bib.bib8),19 (https://arxiv.org/html/2605.15581#bib.bib19),20 (https://arxiv.org/html/2605.15581#bib.bib20),21 (https://arxiv.org/html/2605.15581#bib.bib21),9 (https://arxiv.org/html/2605.15581#bib.bib9),6 (https://arxiv.org/html/2605.15581#bib.bib6),22 (https://arxiv.org/html/2605.15581#bib.bib22),23 (https://arxiv.org/html/2605.15581#bib.bib23)]。这也使得RCA根本不同于通用推理任务:其正确性受限于证据、时间和系统结构,而不仅仅是文本的合理性。
### II-B 动机
#### II-B1 动机1
RCA Agent中的推理失败会直接降低RCA准确性。这些特性使得基于LLM的RCA Agent特别容易受到推理失败的影响。证据范围界定中的错误(例如,遗漏异常爆发点或仅关注下游受害者)、过早的假设锚定、不可行的因果路径或过于自信的最终决策,都可能直接改变排序后的根因候选,从而降低RCA准确性。与一般的文本生成任务不同,在一般文本生成任务中,不完美的中间思考仍可能得出正确答案,RCA要求对遥测、时间顺序和拓扑保持一致的中间承诺;因此,即便是微小的推理缺陷也可能传播为巨大的端到端错误。
#### II-B2 动机2
细粒度逐步失败定位对于RCA Agent而言不可靠且低效。一种自然的反应是在单个推理步骤的层面上调试Agent。然而,在RCA环境中,逐步定位通常既不可靠又低效。细粒度轨迹通常充满噪声,包含许多冗余或弱因果步骤,使得难以确定哪个步骤真正关键。更重要的是,纠正一个孤立的步骤很少能解决底层的RCA失败,后者通常位于更高级别的工作流产物中,例如证据范围、假设覆盖范围、因果可行性或决策标定。反复检查和重新生成长推理轨迹还会引入大量的LLM和工具调用开销。这些限制激发了一个更实用的替代方案:阶段级定位与基于重放的修复,它针对RCA工作流中的关键故障阶段,并通过结构化的修补和重放来纠正下游推理。
## III 问题陈述
根据第II节 (https://arxiv.org/html/2605.15581#S2),我们将微服务RCA形式化为一个对多模态可观测性和系统拓扑进行多阶段推理的过程。我们不将RCA Agent视为黑盒预测器,而是将其执行表示为一个结构化的程序轨迹:
A=(EP,HS,AS,DR),\mathcal{A}=(\mathrm{EP},\mathrm{HS},\mathrm{AS},\mathrm{DR}), (1)
其中每个阶段对应于RCA工作流中的一个不同中间产物。
##### 证据包 (EP)
EP\mathrm{EP}定义了事件时间窗口、待分析实体范围(包括主机/服务/Pod映射)以及一组从可观测性信号中提取的有索引的证据项。每个证据项都关联一个标识符、模态、目标实体或边,以及一个简洁摘要。
##### 假设集 (HS)
HS\mathrm{HS}由一组对事件的候选解释 {hi}\{h_i\} 组成。每个假设都显式地基于相关实体和来自EP的支持证据标识符,从而防止无依据或任意选择的证据隐性地驱动诊断。
##### 分析结构 (AS)
AS\mathrm{AS}将Agent的因果推理捕捉为一组传播路径 {pj}\{p_j\}。每条路径表示为系统图上拓扑一致的一条游走或子图,并附带文本说明和支持证据标识符。这种表述使得因果推理在可达性、时间一致性和证据支持方面是可验证的。
##### 决策报告 (DR)
DR\mathrm{DR}输出一个带有置信度分数的排序根因候选列表,以及最小化的验证测试或推荐操作。当不确定性仍然很高时,DR可能倾向于先进行验证的结论,而不是过于自信的定位。
我们将Agent自我修复形式化为带重放的阶段属性化修正。令
s∈{S1,S2,S3,S4}s \in \{S_1,S_2,S_3,S_4\} (2)
表示对应EP、HS、AS和DR的阶段索引。一个阶段修补算子会在阶段s生成一个修正后的产物:
O′(s)=Ps(A,O,G),\mathcal{O}'(s)=\mathcal{P}_s(\mathcal{A},O,G), (3)
其中OO表示事件可观测性,GG表示系统拓扑。给定一个修补后的产物,我们定义一个确定性重放算子,它会重新执行所有下游阶段:
Replay(A,s),\mathrm{Replay}(\mathcal{A},s), (4)
该算子用修补后的版本替换阶段s的产物,并重跑从阶段s到S4S_4的所有后续阶段。
核心挑战在于识别关键故障阶段。我们定义s∗s^*为最早的那个阶段,使得修补其产物并重放所有下游阶段能显著改善轨迹可靠性和/或最终RCA正确性,而仅修补较晚阶段无法一致达到相同效果。该定义捕捉了RCA Agent的阶段污染特性:一旦上游产物存在缺陷,下游的假设、分析和决策可能一直存在系统性偏差,除非从修正后的上游阶段启动重放。
因此,给定一个初始RCA轨迹A\mathcal{A},我们的目标是:
1. 判断该轨迹是否不可靠;
2. 识别关键故障阶段s∗s^*;
3. 仅修补阶段s∗s^*的产物;
4. 重放下游阶段,以获得一个修复后的决策报告。
## IV 方法论
参见图注图1:我们提出的STAR框架概述。STAR由五个紧密耦合的组件组成:阶段级审计、快速/慢速路由、关键阶段定位、补丁与重放修复以及自进化修复记忆。如图1所示 (https://arxiv.org/html/2605.15581#S4.F1),我们提出STAR作为微服务RCA Agent的一个面向过程的可靠性层。基于第III节 (https://arxiv.org/html/2605.15581#S3) 中阶段结构化的形式化,STAR并非从头解决RCA;而是审计RCA轨迹,识别关键故障阶段,修复相应的阶段产物,并仅重放下游阶段以消除错误污染。该设计受三个RCA特定需求的指导:中间推理必须基于可观测性信号,因果解释必须与服务拓扑和时间顺序一致,最终诊断必须在操作上可行。
### IV-A 阶段级审计与诊断
给定一个RCA轨迹A=(EP,HS,AS,DR)\mathcal{A}=(\mathrm{EP},\mathrm{HS},\mathrm{AS},\mathrm{DR}),STAR首先执行一次面向RCA的审计,以确定该轨迹是否不可靠,以及不一致性首先出现在何处。审计输出一个全局可靠性得分SS以及一组阶段诊断...相似文章
STAR-Teaming:面向自动化LLM红队的策略-响应多重网络方法
STAR-Teaming提出一种基于多重网络的多智能体框架,实现LLM自动化红队测试,通过将攻击策略组织成可解释的语义社区,在降低算力消耗的同时显著提升攻击成功率。
DART: 结构化工具代理的语义可恢复性
DART 为结构化工具代理引入了语义可恢复性,形式化了一个标准,用于确定在做出下游承诺后,本地检查点恢复是否仍然有效。在三个基于LLM的领域进行的实验表明,它正确恢复了基线本地恢复失败的所有承诺敏感案例,且安全审计未发现不安全的回滚。
使用MCP和可观测性构建自愈代理
一个自愈代理的演示,它利用可观测性(Monocle)和MCP来调试和修复一个损坏的应用程序,通过检查遥测数据和运行测试,将可观测性视为代理循环的一部分。
伪代码引导的结构化推理:实现视觉语言模型中可靠推理的自动化
提出了伪代码引导的结构化推理框架(PStar),该框架自适应地选择结构化伪代码推理路径以减少视觉语言模型中的幻觉,在POPE和MMStar基准测试上取得了最先进的分数。
RadAgent:用于胸部CT逐步解读的工具型AI代理
RadAgent是一种使用工具的AI代理,通过可解释的逐步推理生成胸部CT报告,将临床准确率相对提升36.4%,并实现37%的忠实度——这是现有3D视觉语言模型所不具备的能力。该系统提供完全可检查的推理轨迹,使临床医生能够验证和优化诊断输出。