像专家一样检测时间序列异常:一种具有专用分析器的多智能体 LLM 框架

arXiv cs.AI 论文

摘要

本文介绍了 SAGE,这是一种用于时间序列异常检测的多智能体 LLM 框架,它利用专用分析器来提高可解释性和可靠性。该框架在三个基准测试中表现出优于基线模型的性能,并通过结构化证据整合增强了诊断报告的质量。

arXiv:2605.05725v1 公告类型:新文章 摘要:近期研究探讨了大型语言模型在时间序列异常检测中的应用,但现有方法通常依赖单一通用模型直接推断异常索引或区间,这在处理复杂的异常模式时,限制了其可控性、可解释性和可靠性。我们提出了 SAGE(Specialized Analyzer Group for Expert-like Detection,面向专家级检测的专用分析器组),这是一个用于单变量时间序列结构化异常诊断的多智能体框架。它将异常分析分解为四个专用分析器,分别针对点异常、结构异常、季节性异常和模式异常。每个分析器应用特定类别的数值工具和诊断可视化手段来生成证据,而基于证据的检测器(Detector)则将这些证据整合为带有置信度评分、异常区间及候选异常类型的异常记录。随后,监督器(Supervisor)将这些结构化记录转换为面向分析师的诊断报告。SAGE 进一步利用正常参考训练片段构建合成上下文示例,而不使用真实的异常片段或异常类型标签作为上下文示例。在三个基准测试中,SAGE 在众多强大的机器学习/深度学习及基于语言模型的基线模型中取得了最佳的平均性能。消融实验和人工评估进一步表明,该框架提高了检测的可靠性以及诊断结果的实用价值。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:40

# 像专家一样检测时间序列异常:一种基于专用分析器的多智能体大语言模型框架

来源: https://arxiv.org/html/2605.05725

Hyeongwon Kang  
工业与管理工程系  
高丽大学  
hyeongwon\_kang@korea\.ac\.kr

& Jeongseob Kim  
未来资产证券  
jeongseob\.kim@miraeasset\.com

& Jinwoo Park  
工业工程系  
首尔大学  
jinwoo\_park@snu\.ac\.kr

& Pilsung Kang  
工业工程系  
首尔大学  
pilsung\_kang@snu\.ac\.kr

###### 摘要

最近的研究探讨了将大语言模型(LLM)用于时间序列异常检测,但现有的方法通常依赖于单个通用模型直接推断异常索引或区间,这限制了对复杂异常模式的可控性、可解释性和可靠性。我们提出了 SAGE(Specialized Analyzer Group for Expert-like Detection,用于类专家检测的专用分析器组),这是一个用于单变量时间序列结构化异常诊断的多智能体框架。它将异常分析分解为针对点异常、结构异常、季节异常和模式异常的四个专用分析器(Analyzer)。每个分析器应用特定类别的数值工具和诊断可视化来生成证据,而基于证据的检测器(Detector)则将这些证据整合为带有置信度评分、区间和候选类型的异常记录。随后,主管(Supervisor)将这些结构化记录转换为面向分析师的诊断报告。SAGE 进一步从正常参考训练片段中构建合成上下文示例(in-context examples),而不使用真实的异常片段或异常类型标签作为上下文示例。在三个基准测试中,SAGE 在强大的机器学习/深度学习及基于语言模型的基线中实现了最佳平均性能。消融研究和人工评估进一步表明,所提出的框架提高了检测可靠性以及诊断输出的实用价值。

## 1 引言

时间序列异常检测(TSAD)在工业监控、金融欺诈检测、医疗诊断和网络安全等应用中至关重要\[13 (https://arxiv.org/html/2605.05725#bib.bib6), 23 (https://arxiv.org/html/2605.05725#bib.bib7)\]。现有方法涵盖了从经典统计方法到现代深度学习模型的各种技术\[19 (https://arxiv.org/html/2605.05725#bib.bib23), 2 (https://arxiv.org/html/2605.05725#bib.bib4), 30 (https://arxiv.org/html/2605.05725#bib.bib5)\]。然而,大多数 TSAD 方法侧重于生成异常分数,对于异常类型和决策证据的结构化解释支持有限。许多最近的深度学习方法强调特定的时间序列特征,如分解、傅里叶分析或多分辨率建模\[30 (https://arxiv.org/html/2605.05725#bib.bib5), 35 (https://arxiv.org/html/2605.05725#bib.bib25)\],而人类专家通常通过综合考虑统计量、趋势、季节性和模式变化来诊断异常。这种差异促使我们构建一个框架,将这些诊断视角分离为专门的分析,并将其证据整合为一致的决策。如果没有这种分解,异质的异常类型(包括点异常、变化点、频率变化和模式偏移)将难以以可解释的方式进行诊断。

大语言模型(LLMs)和视觉-语言模型(VLMs)的最新进展为可解释的 TSAD 提供了新的机遇,但现有的基于 LLM/VLM 的方法仍面临重要挑战。单个通用 LLM 对长数值输入的控制有限,难以进行精确的统计操作(如变化点分析),并且在多个时间视角下进行同时推理的能力也有限\[5 (https://arxiv.org/html/2605.05725#bib.bib12), 18 (https://arxiv.org/html/2605.05725#bib.bib8)\]。例如,LLMAD\[18 (https://arxiv.org/html/2605.05725#bib.bib8)\] 通过 AnoCoT 推理和基于跨检索真实异常示例的上下文学习(ICL)改进了基于 LLM 的 TSAD,但它仍然依赖单个 LLM 进行最终异常推断,且在异常标签不可用时不太适用。最近的多智能体方法如 TSAD-Agents\[31 (https://arxiv.org/html/2605.05725#bib.bib14)\] 展示了智能体异常分析的潜力,但其分解相对粗糙,并未围绕点、结构、季节和模式等不同的异常家族明确组织诊断证据。

我们提出了 SAGE(Specialized Analyzer Group for Expert-like Detection),这是一个用于单变量时间序列结构化异常诊断的多智能体 LLM 框架。SAGE 不将 TSAD 视为单一的异常评分问题,而是将不同的异常家族分配给专用的分析器,并将其发现整合为统一的诊断决策。四个分析器分别针对点异常、结构异常、季节异常和模式异常,收集定量工具输出和诊断视觉证据。检测器(Detector)聚合这些输出以生成异常区间、置信度评分和异常类型。SAGE 将这种分析器结构与双表示策略、多模态分析以及从正常参考训练片段构建的合成上下文学习相结合;二元异常标签仅用于从参考池中排除异常区间,而不使用真实的异常片段或异常类型标签作为上下文示例。

我们将重点放在单变量 TSAD 上,作为迈向结构化和可解释异常诊断的第一步,将多变量扩展留给未来的工作。本文的主要贡献如下:

1. 我们将 TSAD 重构为结构化诊断,按证据模式分解异常分析,并生成区间、置信度评分、异常类型和诊断输出。
2. SAGE 引入了针对点异常、结构异常、季节异常和模式异常的专用分析器,以及一个聚合异构工具证据的基于证据的检测器。
3. SAGE 从正常参考训练片段构建合成上下文学习参考,不使用真实的异常片段作为上下文示例。
4. 跨基准测试、消融实验、合成类型评估、人工评估及骨干网络比较的实验表明,检测性能和诊断有用性得到了提升。

## 2 相关工作

#### 时间序列异常检测

时间序列异常检测(TSAD)已通过统计方法、基于距离或密度的方法以及深度学习方法进行研究。Z-score 和 ARIMA 等统计方法基于分布假设或时间动态检测异常,而 LOF\[3 (https://arxiv.org/html/2605.05725#bib.bib1)\] 和 Isolation Forest\[17 (https://arxiv.org/html/2605.05725#bib.bib2)\] 等方法则识别偏离正常数据分布的样本。包括 LSTM-AE\[19 (https://arxiv.org/html/2605.05725#bib.bib23)\]、USAD\[2 (https://arxiv.org/html/2605.05725#bib.bib4)\] 和 Anomaly Transformer\[30 (https://arxiv.org/html/2605.05725#bib.bib5)\] 在内的深度学习方法,利用重构误差、潜在表示或基于注意力的依赖建模实现了强大的检测性能。最近的方法进一步关注特定的时间序列特征,如分解、傅里叶分析和多分辨率表示\[35 (https://arxiv.org/html/2605.05725#bib.bib25), 30 (https://arxiv.org/html/2605.05725#bib.bib5)\]。然而,这些方法主要侧重于异常评分,对结构化异常类型、决策证据和诊断解释的支持有限。SAGE 通过将异常候选与定量证据和类型信息配对,扩展了这一以检测为导向的范式。

#### 用于时间序列的 LLM/VLM

大语言模型(LLMs)最近以多种方式应用于时间序列分析。PromptCast\[32 (https://arxiv.org/html/2605.05725#bib.bib9)\]、LLMTime\[7 (https://arxiv.org/html/2605.05725#bib.bib10)\] 和 Time-LLM\[10 (https://arxiv.org/html/2605.05725#bib.bib11)\] 将时间序列值转换为文本或令牌序列,以利用 LLM 的预测和推理能力。这些研究表明,LLM 对于解释和预测时间序列模式很有用,但它们的主要焦点是预测或一般的时间序列推理,而非基于证据的异常诊断。在异常检测背景下,LLMAD\[18 (https://arxiv.org/html/2605.05725#bib.bib8)\] 使用单个 LLM 结合 AnoCoT 推理和基于检索的真实异常示例的上下文学习,而 SigLLM\[1 (https://arxiv.org/html/2605.05725#bib.bib15)\] 将时间序列转换为文本表示,并评估基于直接提示和预测的检测管道。TAMA\[37 (https://arxiv.org/html/2605.05725#bib.bib13)\] 将时间序列转换为视觉表示,并使用少样本多模态提示进行异常检测和类型级解释。这些方法展示了 LLM 和 VLM 在 TSAD 中的适用性,但它们在输入表示、上下文学习来源、输出格式、置信度估计和诊断能力方面存在显著差异。SAGE 采取了不同的方向,结合压缩文本摘要、分析器生成的视觉证据、从正常数据构建的合成上下文学习以及按异常家族组织的证据生成,将基于 LLM 的 TSAD 从直接异常推断转向结构化诊断。

#### 多智能体和工具增强型 LLM 系统

多智能体 LLM 系统在解决复杂任务方面日益受到关注。AutoGen\[29 (https://arxiv.org/html/2605.05725#bib.bib16)\]、MetaGPT\[8 (https://arxiv.org/html/2605.05725#bib.bib17)\]、CAMEL\[14 (https://arxiv.org/html/2605.05725#bib.bib18)\] 和 MALT\[20 (https://arxiv.org/html/2605.05725#bib.bib19)\] 表明,角色分解和协作可以提高比单智能体系统更强的问题解决能力。ReAct\[34 (https://arxiv.org/html/2605.05725#bib.bib20)\] 和 Toolformer\[25 (https://arxiv.org/html/2605.05725#bib.bib21)\] 等工具增强框架进一步证明,外部工具可以弥补 LLM 在数值和程序方面的局限性。在 TSAD 中,TSAD-Agents\[31 (https://arxiv.org/html/2605.05725#bib.bib14)\] 展示了智能体异常分析的潜力。然而,通用的多智能体系统主要关注通用的角色分解和协作机制,而特定领域的证据生成和聚合协议尚未得到充分探索。SAGE 通过按异常家族分解时间序列异常诊断、以共享格式表示异构证据,并通过明确的评分标准对其进行聚合,填补了这一空白。

## 3 提出的方法:SAGE

我们考虑单变量 TSAD 设置。给定一个单变量时间序列 $X=(x_1,\dots,x_n)$,SAGE 输出一组异常记录:

$$
\mathcal{Y}=\{(s_j,e_j,c_j,\tau_j,d_j)\}_{j=1}^m. \quad (1)
$$

其中,$s_j$ 和 $e_j$ 是起始和结束索引,$c_j \in [0,1]$ 是置信度评分,$\tau_j \subseteq \mathcal{T}$ 是候选异常类型集合,$d_j$ 表示支持面向分析师报告的诊断证据。集合 $\mathcal{T}$ 表示异常类型分类法。

### 3.1 整体架构

图 1 (https://arxiv.org/html/2605.05725#S3.F1) 展示了 SAGE 的整体架构。SAGE 是一个分层管道,通过五个阶段处理输入时间序列。其关键设计并不是简单地在多个 LLM 智能体上并行化直接推理,而是按异常家族分解分析,并将由专用分析器生成的定量和视觉证据整合到一个共享的诊断框架中。随后,检测器将收集到的证据转化为结构化的异常决策,从而将该管道作为一个以诊断为导向的系统完成。

在输入阶段,SAGE 接收单变量时间序列。在表示阶段,输入被转换为两种互补的表示形式。原始时间序列被保留,以便专用工具进行准确的数值计算,而压缩摘要则用作令牌高效的 LLM 提示表示。在多分析器阶段,四个专用分析器并行检查输入时间序列。每个分析器负责特定的异常家族,并使用专用数值工具和诊断可视化收集不同类型的异常证据。在检测器阶段,分析器输出被聚合以生成异常区间、异常类型和基于证据强度的置信度评分。合成上下文学习模块不直接用于分析器本身;相反,它在检测器阶段提供基于检索的参考证据,以支持置信度评分和异常类型排名。最后,在诊断阶段,主管智能体将结构化检测结果转换为面向分析师的诊断,包括警报级别、时间序列特征、警报理由和建议行动。

这些阶段在不同异常家族之间分离角色,并将定量和视觉证据聚合为诊断输出,而不是依赖于对原始时间序列的直接推理。

> **图 1:SAGE 概述**  
> 输入时间序列被转换为双表示形式,并由四个专用分析器并行分析。它们的输出由基于证据的检测器聚合(可选地由合成上下文学习支持),以产生异常预测,然后将其转换为面向分析师的诊断。

### 3.2 双表示策略

直接向 LLM 提供长时间序列会大幅增加令牌成本,而数值工具需要访问精确的原始值。因此,SAGE 将每个输入分为两种表示形式:用于基于工具计算的原始时间序列,以及用于令牌高效 LLM 提示的压缩摘要。压缩摘要包含关键统计量、取整的代表性样本、分段级摘要以及保留极值的采样索引,实现细节见附录 C (https://arxiv.org/html/2605.05725#A3)。对于 400 点的输入,这将令牌使用量减少了约 75%。这种分离使得 SAGE 能够在不牺牲统计和信号处理工具所需数值保真度的情况下,减少 LLM 输入长度。

### 3.3 多分析器系统

SAGE 将九种异常类型分为四个异常家族,并为每个家族分配一个专用分析器。这种分组反映了对局部偏差、体制级变化、周期性中断和形状级扭曲所需的不同证据模式。

*   **PointAnalyzer** 针对全局和上下文点异常,主要依赖异常值检测和滚动统计量;
*   **StructAnalyzer** 通过分解、变化点测试和分段比较,针对趋势、均值和方差变化;
*   **SeasonAnalyzer** 通过自相关、谱分析和时频表示,针对振幅和季节性异常;
*   **PatternAnalyzer** 使用符号和基于复现的方法,针对模式偏移和波形失真。

除了这些主要工具外,分析器还可以使用共享的辅助工具进行视觉和模式分析,如 GAF、MTF、复现图和符号表示,以提供互补的多模态证据。详细的异常定义和工具分配见附录 A (https://arxiv.org/html/2605.05725#A1) 和 H (https://arxiv.org/html/2605.05725#A8)。

设 $\mathcal{A}=\{A_{\mathrm{pt}},A_{\mathrm{str}},A_{\mathrm{sea}},A_{\mathrm{pat}}\}$...

相似文章

QuantAgent:基于价格驱动的多智能体大语言模型高频交易框架

Papers with Code Trending

QuantAgent 是一个专为高频交易设计的多智能体大语言模型框架,通过四个专业智能体(指标、形态、趋势、风险)基于短周期信号快速做出具有风险意识的交易决策。在对比比特币和纳斯达克期货在内的十种金融工具的零样本评估中,该框架在预测准确率和累计收益方面均优于现有的神经网络和规则驱动基线模型。

TradingAgents:多智能体 LLM 金融交易框架

Papers with Code Trending

本文介绍了 TradingAgents,这是一个多智能体 LLM 框架,通过模拟现实世界中的交易公司来提升股票交易表现。该框架利用执行分析和风险管理的专用智能体,在累计收益和夏普比率方面优于基线模型。

多变量时间序列基准中的异常大多数是单变量的

arXiv cs.LG

本文介绍了一种用于多变量时间序列异常检测基准的诊断框架,发现标记的异常大多可以从单个通道检测到,这对跨通道建模的必要性提出了挑战。作者呼吁开发更多结构多样的评估数据集。

Nexus:面向时间序列预测的智能体框架

Hugging Face Daily Papers

Nexus 提出了一种多智能体框架,将时间序列预测分解为多个专门阶段,利用大语言模型整合数值模式与上下文信息,在基准测试上取得了最先进的结果。