基于注意力引导自编码器融合的无人机输电线路图像绝缘子缺陷检测

arXiv cs.AI 论文

摘要

提出AE-YOLO,一种注意力引导自编码器增强的YOLO框架,用于无人机输电线路图像中鲁棒的绝缘子缺陷检测,在[email protected]上达到95.10%,比YOLO基线高出5个百分点。

arXiv:2606.06536v1 公告类型: 交叉 摘要:由于严重类别不平衡、尺度变化大以及无人机图像中缺陷实例空间范围小,高压输电线路绝缘子的自动缺陷检测仍然具有挑战性。为解决这些问题,本文提出AE-YOLO,一种注意力引导自编码器增强的YOLO框架,用于鲁棒的绝缘子缺陷检测。该架构在特征金字塔网络-路径聚合网络(FPN-PAN)颈部集成了轻量级瓶颈自编码器,从而在多尺度特征融合过程中保留异常敏感信息。整个主干网络使用卷积块注意力模块(CBAM),增强特征判别能力并抑制背景干扰。该框架还引入了一种方差最大化自编码器正则化策略,鼓励生成多样化且缺陷判别性强的潜在表示。网络通过统一目标训练,该目标结合了焦点损失、完全IoU(CIoU)损失和自编码器正则化,以应对前景-背景不平衡问题并提高定位准确性。在推理阶段,加权框融合(WBF)结合了YOLOv8、YOLOv10和YOLO11的预测结果。自编码器引导的置信度提升机制提高了对罕见缺陷类别的敏感性。在绝缘子缺陷检测数据集上的实验表明,采用EfficientNetV2主干的AE-YOLO在[email protected]上达到95.10%,精度96.40%,召回率93.80%。该性能在[email protected]上比最强的YOLO系列基线高出5.0个百分点,在召回率上高出6.7个百分点。这些结果证实了该框架的有效性和适应性。该模型是基于无人机的输电线路巡检和缺陷监测的实用且可扩展的解决方案。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:16

# 基于注意力引导自编码器融合的无人机输电线路绝缘子缺陷检测
来源:https://arxiv.org/html/2606.06536
###### 摘要

在高压输电线路绝缘子的自动化缺陷检测中,由于无人机(UAV)图像存在严重的类别不平衡、尺寸变化大以及缺陷实例空间范围小等问题,仍然具有挑战性。为解决这些挑战,本文提出AE-YOLO,一种鲁棒的绝缘子缺陷检测框架,通过注意力引导的自编码器增强YOLO。该架构在特征金字塔网络-路径聚合网络(FPN-PAN)颈部集成了轻量级瓶颈自编码器,在多尺度特征融合过程中保留了异常敏感信息。整个骨干网络采用卷积块注意力模块(CBAM),增强了特征判别能力并抑制了背景干扰。该框架还引入了一种方差最大化自编码器正则化策略,鼓励产生多样化、缺陷判别性的潜在表示。网络使用统一目标进行训练,结合了焦点损失、完整IoU(CIoU)损失和自编码器正则化,以解决前景-背景不平衡问题并提高定位精度。推理时,加权框融合(WBF)结合了YOLOv8、YOLOv10和YOLO11的预测结果。自编码器引导的置信度提升机制同时增强了对罕见缺陷类别的敏感性。在绝缘子缺陷检测数据集上的实验表明,AE-YOLO(使用EfficientNetV2骨干网络)取得了95.10%的[email protected]、96.40%的精度和93.80%的召回率。这一性能在[email protected]上超过最强的YOLO系列基线5.0个百分点,在召回率上超过6.7个百分点。在五种骨干网络架构上的一致改进也证实了该框架的有效性和适应性。这些结果共同表明,AE-YOLO可为基于无人机的输电线路巡检和缺陷监测提供一种实用、可扩展的解决方案。

## I 引言

高压输电线路依靠绝缘子为连接在输电塔上的导线提供电气绝缘和机械支撑。这些部件通常由玻璃或陶瓷制成,在高电压应力、机械载荷和恶劣环境条件下运行[1]。随着时间的推移,这些条件可能导致自爆、结构退化、泄漏电流和污秽闪络[2,3]。在这些故障模式中,污染和物理缺陷是绝缘退化及停电的主要原因。污秽闪络发生在污染物积聚在绝缘子表面并在潮湿条件下形成导电层时,这会增加泄漏电流并降低绝缘性能[4]。因此,早期检测绝缘子缺陷对于提高电网可靠性、降低维护成本和防止服务中断至关重要。最近的研究探索了基于深度学习的方法,通过图像和视频分析进行早期闪络预测[5]。

传统的检测方法,如直升机巡线、人工目视检查和基于规则的图像分析,劳动强度大、成本高,且难以在大型输电网络中规模化应用[6,7]。无人机的采用显著改善了输电线路巡检,能够从难以到达的位置进行低成本、高分辨率的数据采集,同时支持边缘设备上的近实时分析[8]。然而,无人机图像带来了挑战,包括小缺陷目标、复杂背景、尺度变化、光照变化以及来自周围基础设施或植被的遮挡[9]。

深度学习的最新进展显著改善了自动化缺陷检测。两阶段检测器如R-CNN、Fast R-CNN和Faster R-CNN[10,11,12]实现了强定位性能,并已成功应用于绝缘子检测[13,14]。然而,其计算复杂性限制了在无人机平台上的实时部署。相比之下,单阶段检测器如YOLO和SSD[15,16]在精度和速度之间提供了更好的平衡。最近基于YOLOv5、MTI-YOLO和CenterNet变体的方法在输电线路巡检中显示出有希望的结果[17,18,19]。尽管如此,在严重的类别不平衡下检测小缺陷并保持高召回率仍然具有挑战性。

为解决这些限制,注意力机制越来越多地被集成到目标检测框架中[20]。诸如CBAM[24]等模块通过通道和空间注意力增强特征表示,在抑制背景噪声的同时提高对信息区域的关注。类似的策略已在空中巡检任务(包括太阳能电池板故障检测和植物病害监测)中显示出有效性[21,22],突显了其在检测微小和细微缺陷方面的潜力。

特征金字塔网络和路径聚合网络被广泛用于融合多尺度特征,并提高对不同大小目标的检测性能[25,26]。然而,这些架构主要优化语义表示,在特征融合过程中可能会削弱异常判别特征,尤其当缺陷仅占图像很小一部分时。此外,大多数检测框架并未利用基于重建的正则化来在检测流程中保留异常敏感的潜在表示。

受这些挑战的启发,本文提出AE-YOLO,一种用于基于无人机的输电线路巡检中绝缘子缺陷检测的注意力引导自编码器增强型YOLO框架。AE-YOLO在FPN颈部集成轻量级瓶颈自编码器,以在多尺度融合过程中保留异常判别信息,同时CBAM模块增强特征判别能力并抑制背景杂乱。方差最大化自编码器正则化策略鼓励对罕见缺陷敏感的多样化潜在表示。最后,加权框融合和自编码器引导的置信度提升机制提高了鲁棒性,并增强了对困难和罕见缺陷类别的检测。

本文的主要贡献总结如下:

- 我们提出AE-YOLO,一种新颖的注意力引导和自编码器增强的目标检测框架,在FPN-PAN架构中集成轻量级瓶颈自编码器,以改善多尺度缺陷表示定位。
- 我们引入了与骨干网络无关的设计,支持多种特征提取架构,包括EfficientNetV2、MobileNetV3、ResNet50、DenseNet201和ConvNeXt-Tiny,从而能够在各种计算环境中部署。
- 我们开发了一个统一的优化目标,结合了焦点损失、完整IoU(CIoU)损失和方差最大化自编码器正则化,以解决类别不平衡问题并提高对小缺陷实例的敏感性。

本文其余部分安排如下。第二部分回顾了绝缘子缺陷检测和基于深度学习的检测系统的相关工作。第三部分描述了数据集及其特点。第四部分介绍了所提出的AE-YOLO框架。第五部分报告了实验设置和结果。第六部分讨论了研究的发现和局限性,第七部分总结论文并概述未来研究方向。

## II 相关工作

参见图注

参见图注

参见图注

图1:来自绝缘子缺陷检测数据集的带标注示例图像,显示了在不同成像条件下绝缘子、污秽闪络和破损缺陷实例的真实边界框。
### II-A 绝缘子缺陷检测

自动化绝缘子检测已从传统的图像处理技术显著演变为先进的基于深度学习的检测框架。早期方法主要依赖于手工特征、阈值方法和基于规则的图像分析。尽管这些方法在受控条件下取得了可接受的性能,但在无人机获取的图像中常见的复杂背景、光照变化和遮挡情况下,其鲁棒性显著下降[7,6]。基于支持向量机的机器学习方法随后改善了故障分类性能;然而,其有效性仍然高度依赖于手工特征和特定领域的预处理流程[6]。

深度学习的出现通过实现自动特征提取显著提高了缺陷检测精度。两阶段目标检测器,包括Faster R-CNN及其变体,在绝缘子检测任务中展示了强大的定位能力[13,12,14]。这些方法通过区域提议机制和多阶段精炼过程通常实现高检测精度。然而,其计算复杂性和推理延迟限制了在需要快速决策的实时无人机巡检场景中的适用性。

为解决这些限制,研究人员越来越多地采用单阶段检测器。基于YOLO的框架和SSD衍生架构通过单次前向传播直接预测目标位置和类别标签,在精度和计算效率之间提供了更有利的平衡[9,8,5,17]。最近的研究通过多任务学习、无锚点检测策略和轻量级网络设计进一步增强了这些架构[17,18,19]。尽管如此,小尺度缺陷的可靠检测仍然具有挑战性,因为缺陷区域通常只占图像的极小部分,并且与周围背景结构表现出显著的视觉相似性。此外,严重的类别不平衡常常导致传统检测器优先考虑主导类别,而忽略罕见缺陷类别。

### II-B 用于目标检测的多尺度特征融合

对展现出大尺度变化的目标进行精确检测仍然是计算机视觉的基本挑战之一。FPN引入了带有横向连接的自顶向下架构,允许语义丰富的信息在多个分辨率级别之间传播[25]。这种设计通过结合高层语义信息与低层空间细节,显著改善了小目标的检测。

PANs通过引入互补的自底向上路径,加强了跨特征层次的信息流,从而进一步增强了特征融合[26]。因此,FPN-PAN架构已成为现代目标检测器(包括YOLO家族的几代产品)的标准组成部分。最近,诸如YOLOv7等架构表明,精心设计的多尺度特征聚合策略可以在保持实时性能的同时显著提高检测精度[23]。

尽管有效,传统的特征金字塔架构主要针对语义特征聚合进行优化,而非异常保留。在重复的特征压缩和融合操作中,微妙的缺陷相关线索可能会被削弱或丢弃,尤其当缺陷占据非常小的图像区域时。这一限制在输电线路检测中尤为关键,因为成功检测往往依赖于在多个尺度上保留细粒度的异常特征。

### II-C 用于缺陷检测的注意力机制

注意力机制已成为现代深度学习架构的重要组成部分,因为它们能够自适应地强调信息特征同时抑制无关信息。挤压-激励网络通过轻量级门控操作引入通道级特征重标定,在最小化计算开销的同时显著提高了表示能力[27]。

基于这一概念,CBAM集成了通道和空间注意力机制以增强特征判别能力[24]。通过顺序学习哪些信息重要以及它们位于何处,CBAM有效提高了定位性能并减少了背景杂乱的影响。这种能力在空中巡检应用中尤其有价值,因为缺陷区域通常较小、视觉上细微,且被复杂的环境结构所包围。

注意力引导架构在多个检测领域展示了有前景的性能,包括光伏系统中的热故障检测[20]以及在挑战性光照条件下的语义分割[28]。这些研究一致表明,注意力机制提高了特征质量并增强了对环境变化的鲁棒性。然而,大多数现有方法仅将注意力用于特征增强,并未明确纳入在多尺度特征融合过程中保留异常特定潜在表示的机制。

### II-D 高效的骨干网络架构

由于在资源受限平台上部署深度学习模型的需求日益增长,高效骨干网络的设计受到了广泛关注。MobileNets架构引入了深度可分离卷积,显著降低了计算复杂性,同时保持了有竞争力的精度[30,31]。

相似文章

AEyeDE:一种基于注意力归因的AI生成文本检测框架

arXiv cs.CL

AEyeDE是一个基于注意力归因的框架,它使用代理Transformer模型从文本中提取注意力图,并训练轻量级CNN来区分人类撰写与AI生成的文本,性能优于纯文本基线,并且在各种设置下表现出鲁棒性。

Ultralytics YOLO26:统一的实时端到端视觉模型

Hugging Face Daily Papers

Ultralytics YOLO26 引入了一个统一的实时视觉模型家族,具有无需NMS的推理、改进的训练策略以及用于检测、分割和姿态估计的多任务能力,实现了最先进的精度与延迟权衡。