面向多模态在线分布式工业异常检测的参数高效多类智能调度

arXiv cs.LG 2026/05/26 04:00 论文

摘要

本文提出MODIAD，一种面向多模态在线分布式工业异常检测的框架，通过多类智能调度问题和资源高效类级低秩自适应（REC-LoRA）策略解决资源约束问题。在MVTec 3D-AD和Eyecandies数据集上的实验展示了卓越的性能和效率。

arXiv:2605.23984v1 Announce Type: new 摘要：工业异常检测作为工业系统中的一个基本挑战，已引起广泛关注。异构工业传感器的快速发展推动了工业异常检测从单模态向多模态范式的转变。然而，现有方法主要针对集中式和离线场景设计，忽视了真实工业环境中数据分布式和持续生成的特点。随着边缘智能的发展，现代边缘设备不仅能够采集数据，还能进行分布式模型训练，从而实现系统级的协作智能。在此背景下，工业异常检测是一项关键应用。受这些挑战的启发，我们提出了一种名为多模态在线分布式工业异常检测（MODIAD）的新框架。我们首先展示了MODIAD的完整工作流程，然后提出了多类智能调度（MIS）问题，通过平衡数据充足性和类别更新频率来协调跨类别模型更新。为了高效解决该问题，我们设计了序列边际增益贪心（SMG）算法，使其能够在资源约束下实现有效的多类训练。此外，为了提升训练过程中的计算和通信效率，我们提出了资源高效类级低秩自适应（REC-LoRA）策略，该策略在显著降低系统开销的同时保持了检测性能。在两个代表性多模态工业异常检测数据集MVTec 3D-AD和Eyecandies上的大量实验表明，所提方法在MODIAD场景下实现了卓越的性能和效率。

查看原文

查看缓存全文

缓存时间: 2026/05/26 08:58

# 参数高效多类智能调度用于多模态在线分布式工业异常检测  
来源：https://arxiv.org/html/2605.23984  

何强旺、杨伟鸿、杨哲源、周佳、钟晓雄、刘方明、张伟哲  
H. Wang, W. Yang, J. Zhou, X. Zhong, F. Liu and W. Zhang 来自鹏城实验室，深圳，518066，中国。  
Z. Yang 来自清华大学深圳国际研究生院，深圳，518055，中国。  
（通讯作者：周佳、钟晓雄）  

###### 摘要  
工业异常检测作为工业系统中的基本挑战，已引起广泛关注。异构工业传感器的快速发展推动工业异常检测从单模态向多模态范式转变。然而，现有方法主要针对集中式和离线设定设计，忽视了现实工业环境中数据分布式生成且持续流动的特点。随着边缘智能的发展，现代边缘设备不仅具备数据采集能力，还能进行分布式模型训练，从而实现系统级的协作智能。工业异常检测是这一背景下的关键应用。受这些挑战的启发，我们提出一个名为多模态在线分布式工业异常检测（MODIAD）的新型框架。我们首先给出 MODIAD 的完整工作流程，然后形式化一个多类智能调度（MIS）问题，通过平衡数据充分性和类别更新频率来协调跨类别模型更新。为了高效求解该问题，我们设计了顺序边际增益贪婪（SMG）算法，使其能够在资源约束下实现有效的多类训练。此外，为提升训练过程中的计算与通信效率，我们提出一种资源高效类级低秩适配（REC-LoRA）策略，在保持检测性能的同时显著降低系统开销。在两个典型多模态工业异常检测数据集 MVTec 3D-AD 和 Eyecandies 上的大量实验表明，所提方法在 MODIAD 场景下取得了优越的性能和效率。  

###### 索引词：异常检测、分布式学习、多模态学习、在线学习。  

## I. 引言  

工业异常检测旨在识别工业产品中的缺陷或异常模式，在自动化质量检测系统中发挥着关键作用[21](https://arxiv.org/html/2605.23984#bib.bib39)。在实际工业环境中，缺陷样本往往稀缺且难以获取，使得有监督学习方法不切实际。因此，大多数现有方法采用无监督设定，仅使用正常样本训练模型，并在推理时检测异常。  

早期工业异常检测研究主要关注单模态数据，尤其是 RGB 图像[2](https://arxiv.org/html/2605.23984#bib.bib40)。尽管这些方法取得了令人满意的结果，但在复杂场景下，仅凭视觉外观往往不足以应对。例如，与颜色变化无关的结构性缺陷在二维图像中难以检测，尤其是在光照条件变化的情况下[9](https://arxiv.org/html/2605.23984#bib.bib45)。为了克服这些局限，近期研究转向多模态异常检测，通过整合互补的数据源（如 RGB 图像和 3D 点云）来提升检测能力[36](https://arxiv.org/html/2605.23984#bib.bib2)。多模态方法能够联合建模外观信息和几何信息，从而提高检测精度和鲁棒性。具体而言，纹理和颜色缺陷在 RGB 图像中更容易辨识，而结构和形状相关异常则更适于通过 3D 数据捕获。  

尽管如此，现有方法大多在集中式和离线训练框架下开发，要求所有数据在中心服务器上进行收集和处理。这种设计限制了在动态工业环境中的可扩展性和适应性，因为工业环境中的数据是持续分布式生成的[15](https://arxiv.org/html/2605.23984#bib.bib43)。  

参见说明(a)  
图 1：多模态在线分布式工业异常检测框架（E1C1 表示边缘设备 1 上对应于类别 1 的本地模型）。  

随着工业环境中边缘智能设备的迅速发展，分布式学习变得日益可行。特别是联邦学习（FL）[39](https://arxiv.org/html/2605.23984#bib.bib41), [37](https://arxiv.org/html/2605.23984#bib.bib30), [38](https://arxiv.org/html/2605.23984#bib.bib42) 已成为一种有效范式，使多个设备能够在不共享原始数据的情况下协作训练模型，从而降低通信开销并保护数据隐私。这一框架为将工业异常检测从集中式设定扩展到分布式环境提供了自然基础——在分布式环境中，数据在多个设备上生成并存储。然而，与常规 FL 任务相比，分布式工业异常检测引入了若干独特挑战。首先，学习目标存在根本差异。FL 通常侧重于有监督或半监督任务，而工业异常检测主要是无监督的，旨在建模正常模式并识别偏离。其次，大多数异常检测方法采用“一对一”训练策略，即为每个类别单独训练一个模型。在资源受限的边缘环境中，当需要更新多个类别专属模型时，这种设计会带来巨大的计算和通信开销。因此，与标准 FL 不同，分布式工业异常检测需要显式考虑跨类别调度，即决定在有限系统资源下应选择哪些客户端-类别对进行训练，以获得更好的整体检测性能。此外，这些类别专属异常检测任务之间的强相互依赖性，使得该问题与传统的多任务 FL 设定有本质区别[20](https://arxiv.org/html/2605.23984#bib.bib1), [42](https://arxiv.org/html/2605.23984#bib.bib46)。  

尽管多模态异常检测和分布式学习近期取得了进展，现有方法在工业部署中仍面临重大挑战。在实际中，数据自然分布在多个边缘设备（如部署在生产线上 的传感器）上，而非集中聚合。此外，工业数据以流式方式持续生成，需要模型适应不断变化的数据分布，而非依赖静态离线训练。同时，这些数据本质上是多模态的，涉及异构来源（如 RGB 图像、深度信息），进一步增加了检测系统设计的复杂性。这些特性限制了常规 FL 框架的适用性，因为常规 FL 通常是为静态单任务场景设计的。特别是，如何有效协调分布式客户端、处理流式多模态数据，并在有限计算和通信资源下支持类别级异常检测，仍然是开放挑战。这些局限凸显了开发专用多模态在线分布式工业异常检测（MODIAD）框架的迫切需求。据我们所知，本文是首次在分布式和在线学习设定下研究多模态工业异常检测的工作。  

本文主要贡献总结如下：  
1.  受工业异常检测数据特点（离散分布在设备上、实时持续生成、本质多模态）的启发，我们引入并形式化了多模态在线分布式工业异常检测（MODIAD）概念。我们进一步系统研究了在 IIoT 环境下，多个边缘智能设备如何在在线多模态数据流上协作执行异常检测。  
2.  针对 MODIAD 设定中边缘智能设备计算和通信资源有限的问题，我们的目标是最大化训练效率。为此，我们采用双重策略。首先，我们形式化并求解了一个多类智能调度（MIS）问题，选择每轮最合适的客户端-类别对，以最大化整体检测性能，从而提升资源利用率。其次，我们引入了一种参数高效策略——资源高效类级低秩适配（REC-LoRA），进一步降低训练过程中的计算和通信开销。  
3.  我们在 MODIAD 框架下，在两个典型多模态工业异常检测数据集 MVTec 3D-AD 和 Eyecandies 上评估了所提策略。实验结果表明，在 MODIAD 设定下，所提方法相比基线取得了更优的检测性能。此外，结果证实所提策略在整个 MODIAD 训练过程中有效提升了计算和通信效率。  

本文其余部分组织如下。第二部分回顾多模态工业异常检测、在线联邦学习以及通信和计算效率策略的相关工作。第三部分介绍系统模型并形式化问题。第四部分描述 MODIAD 框架的工作流程。第五部分介绍所提的双重策略，用于提升计算和通信效率。第六部分报告验证所提方法在 MODIAD 设定下有效性的实验结果。最后，第七部分总结全文。  

## II. 相关工作  

### II-A. 多模态工业异常检测  

多模态工业异常检测（MIAD）[36](https://arxiv.org/html/2605.23984#bib.bib2) 通过利用工业环境中常见的异构传感器数据，扩展了传统异常检测。通过整合互补模态（如视觉信息和几何信息），MIAD 提高了检测精度和鲁棒性。MVTec 3D-AD 数据集[3](https://arxiv.org/html/2605.23984#bib.bib3) 是一个代表性基准，为每个样本提供配对的 RGB 图像和对应的 3D 点云数据。现有 MIAD 方法大致可分为三类：(1) 教师-学生方法[26](https://arxiv.org/html/2605.23984#bib.bib6),[14](https://arxiv.org/html/2605.23984#bib.bib14)，(2) 记忆库方法[36](https://arxiv.org/html/2605.23984#bib.bib2),[5](https://arxiv.org/html/2605.23984#bib.bib15),[28](https://arxiv.org/html/2605.23984#bib.bib16),[10](https://arxiv.org/html/2605.23984#bib.bib17)，以及 (3) 重建方法[8](https://arxiv.org/html/2605.23984#bib.bib18),[11](https://arxiv.org/html/2605.23984#bib.bib7)。教师-学生方法（如 MMRD[14](https://arxiv.org/html/2605.23984#bib.bib14) 和 AST[26](https://arxiv.org/html/2605.23984#bib.bib6)）通过知识蒸馏学习模态特定表示，通过放大正常样本与异常样本之间的差异来增强异常检测。记忆库方法（如 M3DM[36](https://arxiv.org/html/2605.23984#bib.bib2) 和 Shape-Guided[10](https://arxiv.org/html/2605.23984#bib.bib17)）存储多模态特征表示，并采用对比学习和跨模态对齐等机制来提升检测和定位性能。重建方法（如 EasyNet[8](https://arxiv.org/html/2605.23984#bib.bib18) 和 CFM[11](https://arxiv.org/html/2605.23984#bib.bib7)）通过重建多模态输入来建模正常模式，并利用重建误差识别异常，通常结合轻量级跨模态映射或自适应融合策略。  

尽管这些方法有效，但现有方法主要针对集中式和离线设定设计，依赖于预先收集的静态数据集。这一局限阻碍了它们在真实工业环境中的适用性——真实环境中数据以分布式方式持续生成，并具有动态和异构特性。克服这些挑战需要超越传统的集中式和离线学习范式，向分布式在线多模态异常检测框架发展。据我们所知，本文是首次提出多模态在线分布式工业异常检测概念，并给出完整工作流程及相应算法设计的工作。  

### II-B. 在线联邦学习  

在线学习旨在顺序处理数据并逐步更新模型，非常适合数据持续到达且需要实时模型自适应的应用[27](https://arxiv.org/html/2605.23984#bib.bib20)。这些方法具有计算效率优势，且不需要事先获得完整数据集，特别适用于内存受限的物联网环境。在联邦学习背景下，在线联邦学习（OFL）已成为一种有前景的范式，它将在线学习原理扩展到去中心化学习者的分布式网络中[17](https://arxiv.org/html/2605.23984#bib.bib21)。与传统离线 FL 相比，OFL 的一个显著特征是强调最小化长期累积遗憾，而非局部更新时的静态优化目标。尽管 OFL 仍相对未被充分探索，近期已有若干值得注意的研究推动了该领域的发展。例如，[19](https://arxiv.org/html/2605.23984#bib.bib22) 提出了一种通信高效的 OFL 算法，在降低通信开销的同时保持了较强的学习性能。类似地，[24](https://arxiv.org/html/2605.23984#bib.bib23) 引入了 FedOMD，一种适用于不确定环境的 OFL 方法，能够处理流式数据而不依赖于损失函数分布的假设。这些工作主要关注水平联邦学习（HFL）设定，而[31](https://arxiv.org/html/2605.23984#bib.bib24) 则探索了垂直联邦学习（VFL）上下文[35](https://arxiv.org/html/2605.23984#bib.bib26)，提出了一种针对协作频谱感知的在线 VFL 框架，实现了次线性遗憾。进一步扩展到现实工业应用，[33](https://arxiv.org/html/2605.23984#bib.bib25) 解决了在线 VFL 系统中的噪声干扰和设备异构性等挑战。  

除了上述单模态在线联邦学习方法外，近期研究越来越多地探索多模态数据的作用。例如，[30](https://arxiv.org/html/2605.23984#bib.bib27) 研究了多模态在线联邦学习中模态缺失的影响，并提出了相应的补偿策略。同时，[32](https://arxiv.org/html/2605.23984#bib.bib28) 系统考察了数据量和数据质量不平衡对学习性能的影响，并通过一种再平衡机制缓解了这些问题。现有的 MMO-FL 研究主要建立在 FL 框架之上，且主要关注有监督任务，依赖于明确的标签信息和定义良好的训练目标。相比之下，

面向多模态在线分布式工业异常检测的参数高效多类智能调度

相似文章

# 先规划，再判断，跑得更好：一个受DMAIC启发的工业异常检测智能体系统

重新思考边缘持续异常检测：在真实工业条件下的基准测试

封闭-开放工业检测场景的统一：新的大规模基准、挑战与基线

D2H-AD：一种利用超维计算的高级异常检测混合模型

桥接分类与重建：协同时间序列异常检测

提交意见反馈