# 先规划，再判断，跑得更好：一个受DMAIC启发的工业异常检测智能体系统

arXiv cs.AI 2026/06/04 04:00 论文

anomaly-detection llm-agents multi-agent-systems industrial-ai agentic-ai quality-management multimodal

摘要

DMAIC-IAD 是一个多智能体大语言模型系统，其设计灵感来源于 DMAIC 质量管理框架，专为工业异常检测而构建。该系统采用"先规划、后判断"的方法，通过标准化操作流程制定检测策略，并利用无需执行的裁判模型对策略进行排序，在四种数据模态上相较于智能体基线实现了 37.76% 的性能提升。

arXiv:2606.04599v1 公告类型：新论文摘要：大语言模型（LLM）智能体在自动化复杂数据分析工作流程方面展现出良好前景，但在高风险工业场景中的可靠部署仍面临挑战。工业异常检测（IAD）对于制造业的质量、安全与效率至关重要，然而现有基于 LLM 的 IAD 智能体主要聚焦于执行层面，对策略制定的挖掘不足。因此，它们难以以统一且具有成本效益的方式处理异构模态数据。受 DMAIC 质量管理框架的启发，我们提出了 DMAIC-IAD（基于 DMAIC 的智能化工业异常检测），这是一个"先规划，后判断"的多智能体系统，将 LLM 智能体与结构化工业问题求解流程相结合。DMAIC-IAD 在策略生成之前，先将异构参考资料提炼为标准化操作规程（SOP），并引入一个预训练的免执行判断模型，无需代价高昂的运行时试验即可对候选策略进行排序。跨四种模态的大量实验表明，DMAIC-IAD 相较于适用的智能体基线方法，平均检测性能提升了 37.76%。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:08

# 先计划，后评判，运行更出色：面向工业异常检测的DMAIC启发式智能体系统
来源：https://arxiv.org/html/2606.04599

Yongzi Yu¹，Ao Li²，Le Wang³，Ziyue Li⁴，Fugee Tsung²，Yuxuan Liang¹，Man Li†⁵
¹香港科技大学（广州），²香港科技大学，³上海财经大学，⁴慕尼黑工业大学，⁵西南财经大学
[email protected] †通讯作者

###### 摘要

大型语言模型（LLM）智能体在自动化复杂数据分析工作流方面展现出广阔前景，但在高风险工业场景中的可靠部署仍面临挑战。工业异常检测（IAD）对于制造业的质量、安全与效率至关重要，然而现有基于LLM的IAD智能体主要聚焦于执行层面，对策略制定的挖掘明显不足。因此，这些方法难以以统一且经济高效的方式处理异构多模态数据。受DMAIC质量管理框架的启发，我们提出**DMAIC-IAD**（DMAIC启发式智能体工业异常检测），这是一个"先计划，后评判"的多智能体系统，将LLM智能体与结构化工业问题求解流程相融合。DMAIC-IAD在策略生成前将异构参考资料提炼为标准作业程序（SOP），并引入预训练的免执行评判模型，无需昂贵的运行时试验即可对候选策略进行排序。跨四种模态的大量实验表明，DMAIC-IAD相较于适用的智能体基线方法，平均检测性能提升了**37.76%**。

先计划，后评判，运行更出色：面向工业异常检测的DMAIC启发式智能体系统
Yongzi Yu¹，Ao Li²，Le Wang³，Ziyue Li⁴，Fugee Tsung²，Yuxuan Liang¹，Man Li†⁵
¹香港科技大学（广州），²香港科技大学，³上海财经大学，⁴慕尼黑工业大学，⁵西南财经大学
[email protected] †通讯作者

## 1 引言

异常检测是识别正常数据预期行为偏差的过程 Chandola et al.（2009 (https://arxiv.org/html/2606.04599#bib.bib1)）。在复杂工业系统中，它被广泛用于检测视觉表面缺陷 Cui et al.（2023 (https://arxiv.org/html/2606.04599#bib.bib4)）；Bergmann et al.（2019 (https://arxiv.org/html/2606.04599#bib.bib33)）、时间序列遥测 Hundman et al.（2018 (https://arxiv.org/html/2606.04599#bib.bib15)）；Wang et al.（2026 (https://arxiv.org/html/2606.04599#bib.bib48)）、表格过程 Wang et al.（2022 (https://arxiv.org/html/2606.04599#bib.bib5)）；Han et al.（2022 (https://arxiv.org/html/2606.04599#bib.bib32)）以及图信号 Ding et al.（2019 (https://arxiv.org/html/2606.04599#bib.bib6)）；Liu et al.（2022 (https://arxiv.org/html/2606.04599#bib.bib31)）。然而，工业异常检测（IAD）的难点在于工业场景的多样性 Liu et al.（2024 (https://arxiv.org/html/2606.04599#bib.bib3)）——同一场景中可能同时出现异构数据模态。例如，一条钢板生产线可能同时需要对表面缺陷进行视觉检测、对设备健康状况进行时间序列监控，以及对通信网络进行异常检测。

参见图注：图1：IAD多智能体架构对比：（a）先前基于LLM的策略生成框架 vs.（b）DMAIC启发式设计工作流。

尽管针对特定模态的IAD方法已有大量研究 Liu et al.（2024 (https://arxiv.org/html/2606.04599#bib.bib3)），这些方法仍不适合对异构多模态数据进行统一处理。因此，IAD任务的实际部署仍依赖于特定场景的流水线工程，而针对新数据集的冷启动部署依然劳动密集，往往需要人工调优或从头开始进行代价高昂的试错，以满足可靠性要求。LLM的兴起推动了研究者探索智能体系统 Li et al.（2024 (https://arxiv.org/html/2606.04599#bib.bib46)）；Guo et al.（2024 (https://arxiv.org/html/2606.04599#bib.bib47)）用于自动化异常检测 Yang et al.（2025a (https://arxiv.org/html/2606.04599#bib.bib17)）；Ji et al.（2025a (https://arxiv.org/html/2606.04599#bib.bib18)）。如图1 (https://arxiv.org/html/2606.04599#S1.F1) 所示，现有流水线主要将启发式数据处理与直接代码生成相耦合。关键在于，这些方法过度强调执行阶段，而对高层策略形式化的挖掘严重不足。这种失衡带来了显著的可靠性风险，因为在不产生实际部署成本的情况下无法对生成的策略进行评估。虽然通过强化学习 Hachaj and Piekarczyk（2025 (https://arxiv.org/html/2606.04599#bib.bib40)）；Liang et al.（2025 (https://arxiv.org/html/2606.04599#bib.bib41)）或自我评估 Fang et al.（2025 (https://arxiv.org/html/2606.04599#bib.bib42)）进行迭代优化提供了潜在解决方案，但其相关计算负担使其难以满足实时工业需求。因此，构建**可靠的基于LLM的智能体**以实现真正可信且自主的IAD工作流，仍是一个有待填补的空白。

为了将规范性和流程严谨性引入IAD自动化，我们从DMAIC（定义-测量-分析-改进-控制）中汲取灵感。DMAIC是一种以数据为驱动的过程改进框架，在制造业、供应链管理和服务业中具有深厚的工业根基 De Mast and Lokkerbol（2012 (https://arxiv.org/html/2606.04599#bib.bib2)）。它提供了一个合乎逻辑的分阶段路线图，系统性地定义问题、测量当前状态、分析数据、改进策略，并实施控制以巩固成果 Ishak et al.（2019 (https://arxiv.org/html/2606.04599#bib.bib43)）；Smętkowska and Mrugalska（2018 (https://arxiv.org/html/2606.04599#bib.bib44)）——这与我们的工业异常检测任务高度契合。因此，我们采用DMAIC作为明确的组织框架（图1 (https://arxiv.org/html/2606.04599#S1.F1)），为**策略制定**、**执行前评估**和**部署**引入规范性、可审计性和分阶段的智能体职责。

基于这一DMAIC启发式视角，我们提出**DMAIC-IAD**（DMAIC启发式智能体工业异常检测），这是一个针对IAD实际约束而设计的多智能体系统。该系统首先将领域参考资料提炼为场景特定的标准作业程序（SOP），以支持对多样化场景的统一处理并应对冷启动情况。此外，我们基于数据集样本或描述构建数据集特定的画像。这些制品为下游的策略生成与评估提供基础支撑。随后，我们构建了一个预训练的免执行评判模型，无需运行即可自动对LLM生成的候选策略进行评分，从而避免昂贵的试验成本。最后，执行器将选定策略编译为可运行的工作流，并生成可审计的异常报告。通过将规划与执行解耦，我们的系统能够在执行前高效评估策略质量，从而实现"先计划，后评判，运行更出色"的理念。

本文的主要贡献总结如下：

- 我们提出了一个用于自动化IAD的**DMAIC启发式智能体框架**，以引入规范性、可审计性和分阶段的智能体职责，将领域知识、数据集画像和策略评估整合进结构化流水线。
- 我们引入了**知识蒸馏机制**，从异构参考资料中标准化构建SOP，提升新场景下的冷启动策略质量。
- 我们进一步设计了**免执行评判模型**，从结构性和上下文信号预测方案与任务的兼容性，无需昂贵的运行时试验即可实现对候选策略的可靠优先排序。
- 系统性实验表明，在绝大多数情况下，我们的DMAIC启发式框架性能优于当前最先进方法，平均提升幅度达 **+37.76%**。

## 2 相关工作

##### 工业异常检测。

工业异常检测已在无监督设置下得到广泛研究，其中仅使用正常数据进行训练 Chalapathy and Chawla（2019 (https://arxiv.org/html/2606.04599#bib.bib7)）；Ruff et al.（2021 (https://arxiv.org/html/2606.04599#bib.bib8)）。现有方法主要包括基于重构的模型、基于特征嵌入的方法 Roth et al.（2022 (https://arxiv.org/html/2606.04599#bib.bib13)）；Kirichenko et al.（2020 (https://arxiv.org/html/2606.04599#bib.bib14)）；Xu et al.（2022 (https://arxiv.org/html/2606.04599#bib.bib49)）；Su et al.（2019 (https://arxiv.org/html/2606.04599#bib.bib50)）；xu2018unsupervised，以及用于建模时序和关系依赖的预测方法和基于图的方法 Sakurada and Yairi（2014 (https://arxiv.org/html/2606.04599#bib.bib10)）；Park et al.（2018 (https://arxiv.org/html/2606.04599#bib.bib11)）；Wyatt et al.（2022 (https://arxiv.org/html/2606.04599#bib.bib12)）；Hundman et al.（2018 (https://arxiv.org/html/2606.04599#bib.bib15)）；Lv et al.（2023 (https://arxiv.org/html/2606.04599#bib.bib16)）。大多数基于深度学习的方法仍以模型为中心且依赖特定场景，需要任务特定的设计或重新训练，从而限制了其在异构工业环境中的可扩展性和泛化能力 Chalapathy and Chawla（2019 (https://arxiv.org/html/2606.04599#bib.bib7)）；Li et al.（2025 (https://arxiv.org/html/2606.04599#bib.bib9)）。

参见图注：图2：DMAIC-IAD整体框架：给定场景描述和数据样本，将领域参考资料提炼为**场景特定SOP**，并构建**数据集特定画像**（定义-测量）。利用这些先验知识，生成候选策略，随后由**预训练免执行评判模型**在无需运行时试验的情况下进行评分（分析-改进）。所选策略在控制阶段被编译为可运行工作流并生成可审计的异常报告，从而闭合DMAIC循环。

##### 智能体异常检测系统。

早期基于智能体的异常检测方法聚焦于分布式监控，后来扩展到协作式多智能体系统以提高鲁棒性和可扩展性 McArthur et al.（2005 (https://arxiv.org/html/2606.04599#bib.bib29)）；García（2019 (https://arxiv.org/html/2606.04599#bib.bib28)）。近年来，基于大型模型的智能体已被探索用于时间序列 Gu et al.（2025 (https://arxiv.org/html/2606.04599#bib.bib22)）；Yang et al.（2025b (https://arxiv.org/html/2606.04599#bib.bib20)）；Qin et al.（2025 (https://arxiv.org/html/2606.04599#bib.bib21)）、视觉 Miao et al.（2025 (https://arxiv.org/html/2606.04599#bib.bib19)）以及日志类场景 Ji et al.（2025b (https://arxiv.org/html/2606.04599#bib.bib23)）；Harbola and Purwar（2025 (https://arxiv.org/html/2606.04599#bib.bib24)）的工业异常检测。然而，大多数方法将大型模型作为固定处理器使用，而非针对异构工业场景的自适应决策者。近期框架如 AD-AGENT Yang et al.（2025a (https://arxiv.org/html/2606.04599#bib.bib17)）和 AutoIAD Ji et al.（2025a (https://arxiv.org/html/2606.04599#bib.bib18)）虽可自动化构建可执行流水线，但主要聚焦于实现层面的优化，对模型选择和场景适配的高层决策关注有限。更详细的相关工作见附录B (https://arxiv.org/html/2606.04599#A2)。

## 3 方法论

### 3.1 DMAIC-IAD架构

我们的DMAIC-IAD框架采用面向过程的形式化表示，将智能体角色、主要制品和操作映射明确编码到DMAIC各阶段，如图2 (https://arxiv.org/html/2606.04599#S2.F2) 所示。具体而言，系统表示为元组 $\Omega=\langle\mathcal{R},\mathcal{D},\mathcal{P},\mathcal{K},\Pi\rangle$，其中 $\mathcal{R}$ 表示任务和场景描述的域，$\mathcal{D}$ 表示数据集空间，$\mathcal{P}=\{\text{Define, Measure, Analyze, Improve, Control}\}$ 涵盖有序的DMAIC阶段及其产生的制品，$\mathcal{K}$ 表示外部知识库（整合静态文献与实时网络搜索），$\Pi$ 为可执行策略集合。该框架将输入 $(r,d)\in\mathcal{R}\times\mathcal{D}$ 通过有序DMAIC阶段 $\mathcal{P}$ 映射，在 $\mathcal{K}$ 的指导下选择并执行策略 $\pi\in\Pi$。附录G (https://arxiv.org/html/2606.04599#A7) 提供了一个**案例研究**，附录C (https://arxiv.org/html/2606.04599#A3) 提供了本文的符号汇总。

工作流由在DMAIC循环中充当转换算子的专业化智能体来实现：

- **定义（Define）**：**IAD顾问智能体**通过解读工业场景（$\mathcal{R}$）并从 $\mathcal{K}$ 中提炼领域特定知识，生成规范化SOP模式来启动流程。所生成的*场景特定SOP*为下游阶段定义了问题范围和操作约束。
- **测量（Measure）**：**数据检查智能体**对 $\mathcal{D}$ 进行严格的数据分析，识别分布偏移和结构需求，以确保数据的可用性。
- **分析（Analyze）**：**IAD策略智能体**综合前期阶段的输出，制定候选策略集 $\Pi$，将问题空间映射到潜在的算法解决方案。
- **改进（Improve）**：为优化策略选择，**评判模型**对策略师提出的方案进行评估和评分，以确定最优执行方案。
- **控制（Control）**：最后，**IAD执行智能体**通过代码生成、验证和运行来实施策略，并生成最终报告。

### 3.2 定义：理解与知识蒸馏

初始化的**定义**阶段构成系统的认知锚点，由**顾问智能体**负责执行。该智能体协调一套双通道检索机制，包括用于学术文献的研究助手和用于实时在线资源的AI网络搜索器。我们将这一检索与蒸馏过程形式化为 $\Psi_{cons}:\mathcal{R}\times\mathcal{K}\to\mathcal{W}$。给定非结构化场景描述 $r\in\mathcal{R}$，智能体首先提取语义关键词以查询外部知识库 $\mathcal{K}$。随后，LLM将聚合的多源上下文综合为结构化SOP，记为 $w$。

$$w=\Psi_{cons}(r,\mathcal{K})=\{d_{scen},\vec{o}_{steps},\mathcal{M}_{rec}\},$$

其中 $d_{scen}$ 提供对异常检测场景的精炼定义，$\vec{o}_{steps}$ 表示方法论步骤的有序序列，$\mathcal{M}_{rec}$ 表示从检索结果中推导出的推荐模型集合。具体的SOP案例见附录图6 (https://arxiv.org/html/2606.04599#A7.F6)。

### 3.3 测量：数据集画像

**测量**阶段由**数据检查智能体**主导，将抽象的SOP落地于输入数据的实际情况。我们将此过程形式化为结构化诊断函数 $\Psi_{insp}:\mathcal{D}\to\mathcal{M}$。为在保证上下文感知的同时维持计算效率，智能体在具有代表性的

# 先规划，再判断，跑得更好：一个受DMAIC启发的工业异常检测智能体系统

相似文章

面向多模态在线分布式工业异常检测的参数高效多类智能调度

DiagnosticIQ：基于符号规则评估大语言模型在工业维护行动推荐中表现的基准测试

通过数据到洞察发现代理迈向自主商业智能

AHD Agent：用于自动启发式设计的代理强化学习

# 数字学徒：人类主导的智能体AI开发框架

提交意见反馈