面向配电缺陷检测的多模态智能体：基础模型评估

arXiv cs.AI 2026/06/12 04:00 论文

multi-modal foundation-models defect-detection power-distribution vision-language-models agents benchmark

摘要

本文提出了一种用于配电缺陷检测的多模态智能体框架，评估了基础模型在感知、推理和工具使用能力方面的表现，并提供了新的领域特定数据集和基准。

arXiv:2606.12969v1 公告类型：新 \n摘要：配电网络对于可靠电力输送至关重要，但传统检测方法在语义理解、泛化能力和闭环自动化方面存在局限。为解决这些问题，本文提出了一种专门用于配电缺陷检测的多模态智能体框架。本研究的核心是对多模态基础模型作为统一认知引擎的系统性评估。我们严格评估了它们在三个关键能力上的综合表现：(1) 感知：模型必须准确识别设备并生成专家级的缺陷描述；(2) 推理：模型根据视觉发现，结合领域知识诊断原因、评估严重程度并规划维护策略；(3) 工具使用：模型作为自主操作者执行动作（如查询知识库或生成工单），以实现闭环维护。为支持此评估，我们开发了领域特定的评估数据集和综合基准。实验结果表明了当前基础模型在这三个维度上的优势与局限，为在高风险工业环境中部署自主智能体提供了实证依据。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:54

# 用于配电网缺陷检测的多模态智能体：基础模型评估
来源：https://arxiv.org/html/2606.12969
###### 摘要

配电网是可靠电力传输的关键，然而传统巡检方法在语义理解、泛化能力和闭环自动化方面面临局限。为应对这些挑战，本文提出了一种专门用于配电网缺陷检测的多模态智能体框架。本研究的核心是对多模态基础模型作为统一认知引擎的系统性评估。我们从三个关键能力维度严格评估其集成性能：(1) 感知能力——模型需准确识别设备并生成专家级的缺陷描述；(2) 推理能力——模型需解读视觉发现，基于领域知识诊断原因、评估严重程度并规划维护策略；(3) 工具使用能力——模型需作为自主操作者执行行动（如查询知识库或生成工单），以实现闭环维护。为支撑评估，我们开发了领域专用评估数据集和综合基准。实验结果表明了当前基础模型在这三个维度上的优势与局限，为在高风险工业环境中部署自主智能体提供了实证依据。

关键词：视觉语言模型；多模态智能体；配电网巡检；缺陷检测；检索增强生成；工具使用。

## 1 引言

作为直接服务用户的电网“最后一公里”，配电网在保障现代社会安全稳定运行中扮演着关键角色。传统巡检方法严重依赖人工，不仅效率低下、劳动强度大，且易伴随高操作风险。尽管深度学习技术——尤其是卷积神经网络——提升了巡检效率，但在实际运维场景中部署时仍面临关键瓶颈，如缺乏语义理解（语义鸿沟）、难以识别未见缺陷（泛化能力有限）以及无法自主触发工作流（信息孤岛）。

参见图注 图1：配电网巡检多模态智能体框架概述

为系统应对这些挑战，我们设想了一种更集成的范式——多模态智能体——作为迈向真正自主巡检的有前景路径。与传统的孤立检测模型不同，这种智能体是一个能够独立执行复杂巡检任务的计算实体。其有效性关键取决于核心的多模态基础模型（例如集成的VLM-LLM架构）。在本文中，我们评估这些基础模型作为统一认知引擎的性能，它们必须同时展现三种基本能力，以实现从检测到维护的闭环：

- • (1) 感知能力：不仅能够定位物体，还能理解并生成详细的、类人描述以解析复杂视觉信息，有效弥合原始图像与专家解读之间的语义鸿沟。
- • (2) 推理能力：作为“大脑”解读视觉发现，应用领域知识诊断缺陷原因，评估严重程度，并制定逻辑合理的维护计划。
- • (3) 工具使用能力：能够将决策转化为可执行行动，通过自主调用外部工具（如查询知识库、检索摄像机画面或生成标准化工单），从而打破信息孤岛。

尽管通用多模态模型发展迅速，但将其应用于配电网领域——以严苛的可靠性要求、专业领域知识和安全标准为特征——仍未被充分探索。特别是，目前尚无系统性框架来严格评估这些基础模型在工业场景下感知、推理和工具使用这三个特定维度的表现。

为弥补这一差距，我们在自主配网巡检背景下，为多模态智能体的基础模型实现了综合评估框架。我们的主要贡献如下：

- • 我们提出了一种多模态智能体评估框架，专注于评估其在配网巡检任务中的感知、推理和工具使用能力，使得不同技术配置间的性能比较具有针对性和可复现性。
- • 我们开发了针对配电网场景的多任务、多维度基准。该基准包含用于评估感知和推理的多模态数据集，以及一套用于测试智能体端到端工具执行和任务完成能力的复杂巡检场景集。
- • 利用所提框架，我们系统评估了不同智能体架构和核心模型在配网巡检任务中的表现。结果揭示了这些方法的优势与局限，为未来本领域的技术选型和优化提供了实证依据。

参见图注 图2：评估数据集中配网设备缺陷的代表性示例。这些图像展示了四类主要组件（杆塔、导线、绝缘子、金具）上异常情况的多样性和视觉复杂度，凸显了自动化巡检所需的细粒度感知能力。

## 2 相关工作

### 2.1 视觉语言模型

视觉语言模型通过统一视觉和语言理解，显著推动了人工智能从感知到认知能力的进步。先驱模型如CLIP [23] ([https://arxiv.org/html/2606.12969#bib.bib3]) 和ALIGN [6] ([https://arxiv.org/html/2606.12969#bib.bib8]) 通过共享图像-文本语义空间建立了零样本识别，而后续架构（包括BLIP系列 [10，9] ([https://arxiv.org/html/2606.12969#bib.bib2], [https://arxiv.org/html/2606.12969#bib.bib20])、InstructBLIP [3] ([https://arxiv.org/html/2606.12969#bib.bib7]) 和Flamingo [1] ([https://arxiv.org/html/2606.12969#bib.bib21])）增强了多模态融合，以应对视觉问答等复杂任务。近来，将强大的视觉编码器与大语言模型结合，产生了能够进行深度对话交互和复杂推理的大型多模态模型，例如LLaVA [14] ([https://arxiv.org/html/2606.12969#bib.bib5])、MiniGPT-4 [43] ([https://arxiv.org/html/2606.12969#bib.bib6])、Qwen-VL [32] ([https://arxiv.org/html/2606.12969#bib.bib50]) 以及先进专有模型。尽管这些模型在医学报告生成 [8] ([https://arxiv.org/html/2606.12969#bib.bib22]) 和自动驾驶 [27] ([https://arxiv.org/html/2606.12969#bib.bib23]) 等领域展现了潜力，但将VLM有效应用于高度专业化的配电网巡检任务仍是一个鲜有探索的前沿领域，尤其是在同一模型需同时支持细粒度设备识别、缺陷描述、严重程度分级和面向维护的决策支持时。

### 2.2 工业场景中的智能体

随着大语言模型的出现，计算智能体已发展至将LLM作为其中心“大脑”，用于自主决策和目标执行 [35, 31, 21] ([https://arxiv.org/html/2606.12969#bib.bib9], [https://arxiv.org/html/2606.12969#bib.bib10], [https://arxiv.org/html/2606.12969#bib.bib11])。这些LLM驱动的智能体利用强大的推理能力和ReAct [38, 34] ([https://arxiv.org/html/2606.12969#bib.bib12], [https://arxiv.org/html/2606.12969#bib.bib13]) 等框架，将复杂目标分解为可执行子任务，并调用外部工具——从API到物理执行器 [25, 22] ([https://arxiv.org/html/2606.12969#bib.bib14], [https://arxiv.org/html/2606.12969#bib.bib15])——以实现闭环自动化。尽管此类智能体已在工业自动化中得到初步应用 [36, 17, 30] ([https://arxiv.org/html/2606.12969#bib.bib16], [https://arxiv.org/html/2606.12969#bib.bib19], [https://arxiv.org/html/2606.12969#bib.bib49])，我们提出的框架概念化了一种以LLM为中心的智能体，它从VLM中获取丰富语义输入，以编排配网巡检工作流。通过动态利用领域专用工具包，智能体将视觉缺陷理解与知识库检索、严重程度评估、报告生成以及告警/工单操作相连接，这代表了将多模态感知与运维决策相链接的探索 [7, 33] ([https://arxiv.org/html/2606.12969#bib.bib48], [https://arxiv.org/html/2606.12969#bib.bib47])。

### 2.3 评估任务与基准

现有关于智能体评估的研究已建立了系统的多维度分类框架，将测试场景从通用常识全面扩展到复杂的物理和数字环境 [37, 19, 39] ([https://arxiv.org/html/2606.12969#bib.bib24], [https://arxiv.org/html/2606.12969#bib.bib26], [https://arxiv.org/html/2606.12969#bib.bib27])。在多模态和专家级认知方面，MMMU基准 [40] ([https://arxiv.org/html/2606.12969#bib.bib28]) 通过超过一万道大学水平问题挑战模型的深度学科感知与推理，而Ego-Exo4D [5] ([https://arxiv.org/html/2606.12969#bib.bib29]) 利用大规模多视角视频数据集，专注于评估智能体对细粒度关键步骤的识别和技能熟练度。关于动态环境交互与复杂工作流规划，GAIA [18] ([https://arxiv.org/html/2606.12969#bib.bib30]) 聚焦于真实世界多步骤任务中的长程规划能力。Mind2Web [4] ([https://arxiv.org/html/2606.12969#bib.bib31]) 及其在线版本要求智能体在充满弹窗、动态布局等干扰的真实Web环境中完成复杂操作，高度重视执行过程的正确性。此外，最近提出的AgentVista [28] ([https://arxiv.org/html/2606.12969#bib.bib32]) 挑战了通用多模态智能体在多个子领域中基于视觉证据驱动的长程工具调用能力。

### 2.4 评估指标体系

伴随智能体能力的演进，评价指标已从单一的词汇重叠度量（如BLEU [20] ([https://arxiv.org/html/2606.12969#bib.bib33]) 和ROUGE [13] ([https://arxiv.org/html/2606.12969#bib.bib38])）发展为涵盖感知、行为、推理和系统效率的多维体系。在基础生成和视觉感知方面，研究者引入了Pass@kk来衡量功能正确性 [2] ([https://arxiv.org/html/2606.12969#bib.bib34])、基于偏好的Elo评分 [41] ([https://arxiv.org/html/2606.12969#bib.bib39])，以及专门用于检测和量化视觉幻觉的POPE [11] ([https://arxiv.org/html/2606.12969#bib.bib35]) 和CHAIR [24] ([https://arxiv.org/html/2606.12969#bib.bib40]) 框架。对于长程任务和动态交互，评估核心已转向成功率 [16] ([https://arxiv.org/html/2606.12969#bib.bib37])、工具调用和检索准确率（如MRR和NDCG [26] ([https://arxiv.org/html/2606.12969#bib.bib41])），以及量化模拟器与真实人类之间模拟-现实行为差距的用户模拟指数 [42] ([https://arxiv.org/html/2606.12969#bib.bib42])。此外，面对复杂任务中的稀疏奖励挑战，评估焦点正向执行过程迁移：过程奖励模型得分 [12] ([https://arxiv.org/html/2606.12969#bib.bib43]) 和基于事后逻辑回溯的信用分配框架（如HCAPO [29] ([https://arxiv.org/html/2606.12969#bib.bib44])）被用于准确评估中间推理步骤的逻辑一致性和行动必要性。同时，首令牌时间、吞吐量和每任务成本等效率指标已成为衡量模型实际生产部署价值的关键标准 [15] ([https://arxiv.org/html/2606.12969#bib.bib45])。

## 3 方法

为系统评估配电网巡检中的自主能力，我们设计了一个全面的多模态智能体框架。概念上，该智能体被定义为一个能够通过从感知到行动的闭环独立执行复杂巡检任务的计算实体。本节介绍框架的总体设计、数据集以及评估协议。

### 3.1 总体框架

智能体的架构围绕三个关键组件构建：核心认知引擎、交互机制和配置策略。

(1) 基础模型是智能体的核心。我们并非使用独立的视觉和逻辑模块，而是采用单一基础模型作为智能体的核心推理引擎。该模型负责处理多模态信息并驱动智能体的三种核心能力：感知、推理和工具使用。

(2) 输入与输出机制。智能体通过精简的多模态接口与环境交互，该接口处理由高分辨率巡检图像和自然语言任务指令组成的组合输入流。这种双输入能力使智能体能够在特定用户查询的上下文中分析视觉信号。相反，智能体被设计为产生双模态输出：它生成详细的、类人的自然语言描述以解释设备状态和缺陷，同时产生机器可解析的结构化命令（JSON格式）来指定工具调用和参数，用于自动执行。

(3) 提示配置。为使通用基础模型适应专业电力领域，我们实施了严格的提示工程策略，通过固定模板引导智能体行为。该配置明确将智能体的角色定义为经验丰富的配网巡检专家以建立专业背景，严格设定任务约束为有效的设备和缺陷类别以最小化幻觉，并通过少量示例（包含参考图像和专家验证的描述）融入上下文学习，以标准化推理逻辑和输出格式。

### 3.2 三种核心能力的实现

我们通过将基础模型的行为锚定在三种不同能力上，实现智能体的功能，确保从视觉输入到可执行行动的稳健过渡。

#### 3.2.1 感知

感知能力负责从视觉信号中提取深层语义信息。与输出离散标签的传统检测器不同，我们的实现利用基础模型的视觉-语言对齐，以便：(1) 识别与定位：分析图像内容以识别设备类型并定位关键部件；(2) 语义描述：生成关于潜在缺陷的详细自然语言描述。例如，模型不仅仅是简单标记物体为“损坏”，而是描述具体的视觉特征，如“法兰上的锈蚀”。这种详细的语义输出弥合了原始像素与高水平解释之间的差距。

面向配电缺陷检测的多模态智能体：基础模型评估

相似文章

AgentForesight：多智能体系统中用于早期故障预测的在线审计

探测、融合与可信度：面向多模态癌症分析的基础模型表征系统评估

MODE-RAG：流形异常诊断与基于能量的检索增强生成评估

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

基础智能体的进展与挑战：从脑启发智能到演化、协作与安全系统

提交意见反馈