封闭-开放工业检测场景的统一:新的大规模基准、挑战与基线
摘要
介绍了MMIOC-1M,一个用于工业缺陷检测的大规模多模态基准,并提出了RTVPNet,一种精细的文本-视觉提示网络,实现了最先进的性能。
arXiv:2606.07953v1 公告类型:新
摘要:大规模视觉语言模型(LVLMs)在自然视觉任务中取得了显著成功,但由于两个基本限制,它们在工业缺陷检测中的应用仍然具有挑战性:(i)缺乏覆盖多个领域各种缺陷类别的大规模工业数据集,以及(ii)依赖手动提示(点、框、掩码),这些提示引入主观噪声且缺乏用于细粒度理解的文本-视觉交互。为了解决这些挑战,我们引入了一个大规模多模态工业开放-封闭基准(MMIOC-1M),包含超过一百万个样本,涵盖$14$个超类别、$29$个工业场景和$351$个缺陷子类别。据我们所知,MMIOC-1M是第一个同时支持开放词汇和封闭集工业检测的统一最大基准,为工业场景中的LVLMs提供了宝贵的预训练数据。此外,我们提出了一个精细文本-视觉提示网络(RTVPNet),它包含三个关键创新:(1)专家辅助领域投影机制,使通用视觉模型能够快速适应工业领域;(2)基于能量的稀疏采样策略,无需手动干预即可自动生成精细视觉提示;(3)双向文本-视觉交互模块,增强跨模态语义对齐和理解。大量实验表明,RTVPNet在MMIOC-1M、LVIS和COCO基准上实现了最先进的性能,同时保持计算效率。数据集和代码可在https://github.com/hellozzk/MMIO获取。
查看缓存全文
缓存时间: 2026/06/09 08:53
# 统一开放与封闭工业检测场景:新的大规模基准、挑战与基线 来源:https://arxiv.org/html/2606.07953 Zekai Zhang†, Jinglin Zhang\*†, Qinghui Chen, Gang Li, Da Chen, Shuainan Jing, He Wang, Dagang Li, Cong Liu, Cong Bai, Shengyong Chen Zekai Zhang、Jinglin Zhang和Qinghui Chen来自山东大学控制科学与工程学院,济南250061。Da Chen来自巴黎多芬纳大学PSL研究大学CEREMADE,CNRS,UMR 7534,法国巴黎75775。Gang Li、Shuainan Jing和He Wang来自齐鲁工业大学(山东省科学院)山东省计算中心,济南。Cong Bai来自浙江工业大学计算机科学与技术学院,杭州310023。Cong Liu来自新里斯本大学NOVA信息管理学院,葡萄牙里斯本1070-312。Dagang Li来自澳门科技大学计算机科学与工程学院,澳门特别行政区,澳门。Shengyong Chen来自天津理工大学计算机科学与工程学院,天津300384。†Zekai Zhang和Jinglin Zhang对本文贡献相同。\*通讯作者为Jinglin Zhang(电子邮箱:[email protected])。 ###### 摘要 大规模视觉语言模型(LVLMs)在自然视觉任务中取得了显著成功,但其在工业缺陷检测中的应用仍面临两大根本性挑战:(i)缺乏覆盖多个领域多样化缺陷类别的大规模工业数据集;(ii)对人工提示(点、框、掩码)的依赖引入了主观噪声,且缺乏用于细粒度理解的文本-视觉交互。为解决这些挑战,我们引入了一个大规模多模态工业开放-封闭基准(MMIOC-1M),该基准包含超过一百万个样本,涵盖1414个超类、2929个工业场景以及351351个缺陷子类。据我们所知,MMIOC-1M是首个同时支持开放词汇和闭集工业检测的统一大规模基准,为LVLMs在工业场景中提供了宝贵的预训练数据。此外,我们提出了一种精细化文本-视觉提示网络(RTVPNet),该网络包含三项关键创新:(1)专家辅助领域投影机制,使通用视觉模型能够快速适应工业领域;(2)基于能量的稀疏采样策略,无需人工干预即可自动生成精细化视觉提示;(3)双向文本-视觉交互模块,增强了跨模态语义对齐与理解。大量实验表明,RTVPNet在MMIOC-1M、LVIS和COCO基准上均取得了最先进的性能,同时保持了计算效率。数据集和代码可在https://github.com/hellozzk/MMIO获取。 ## 1 引言 产品缺陷检测在制造业中起着至关重要的作用,对于提高产品质量和生产效率具有重要意义。工业场景中的专家模型[61 (https://arxiv.org/html/2606.07953#bib.bib48),15 (https://arxiv.org/html/2606.07953#bib.bib11),31 (https://arxiv.org/html/2606.07953#bib.bib24),57 (https://arxiv.org/html/2606.07953#bib.bib99),32 (https://arxiv.org/html/2606.07953#bib.bib112)]通常使用单一领域的单模态数据,并严格遵循类别可见的方法,这限制了模型处理多场景数据以及向开放场景泛化的能力。近年来,大规模视觉语言模型(LVLMs)[29 (https://arxiv.org/html/2606.07953#bib.bib72),90 (https://arxiv.org/html/2606.07953#bib.bib73),77 (https://arxiv.org/html/2606.07953#bib.bib74),40 (https://arxiv.org/html/2606.07953#bib.bib82),43 (https://arxiv.org/html/2606.07953#bib.bib87)]在遥感、医学等领域展现出了强大的交互能力和泛化能力。这些方法的独特之处在于人机交互提示的设计,允许基于用户提供的点、线和框提示进行分割。然而,将LVLM[84 (https://arxiv.org/html/2606.07953#bib.bib156),81 (https://arxiv.org/html/2606.07953#bib.bib157),12 (https://arxiv.org/html/2606.07953#bib.bib158),14 (https://arxiv.org/html/2606.07953#bib.bib159),95 (https://arxiv.org/html/2606.07953#bib.bib160),93 (https://arxiv.org/html/2606.07953#bib.bib161),80 (https://arxiv.org/html/2606.07953#bib.bib162),47 (https://arxiv.org/html/2606.07953#bib.bib163),46 (https://arxiv.org/html/2606.07953#bib.bib164),37 (https://arxiv.org/html/2606.07953#bib.bib165),9 (https://arxiv.org/html/2606.07953#bib.bib166),7 (https://arxiv.org/html/2606.07953#bib.bib167),8 (https://arxiv.org/html/2606.07953#bib.bib168),87 (https://arxiv.org/html/2606.07953#bib.bib169),89 (https://arxiv.org/html/2606.07953#bib.bib170),85 (https://arxiv.org/html/2606.07953#bib.bib171),82 (https://arxiv.org/html/2606.07953#bib.bib172),88 (https://arxiv.org/html/2606.07953#bib.bib173)]的预训练-提示范式应用于工业场景存在许多重大挑战。如图1(b)所示,工业场景与自然场景在特征空间中存在显著的领域差异。简单地将知识从自然场景迁移到工业缺陷检测无法消除领域间的显著差异,因此需要针对大量领域专业数据进行微调。然而,现有的工业检测数据均分布在单一领域,无法找到统一的多领域泛化工业场景数据集。如图1(a)所示,现有的LVMLs[29 (https://arxiv.org/html/2606.07953#bib.bib72),90 (https://arxiv.org/html/2606.07953#bib.bib73),77 (https://arxiv.org/html/2606.07953#bib.bib74),40 (https://arxiv.org/html/2606.07953#bib.bib82)]在处理复杂场景时依赖人工操作(点、框、掩码)来分割目标。面对工业场景包含复杂噪声的问题,用户的熟悉程度会显著影响特定提示的效果,并引入不相关或噪声像素。此外,当前大多数LVLMs[29 (https://arxiv.org/html/2606.07953#bib.bib72),90 (https://arxiv.org/html/2606.07953#bib.bib73),77 (https://arxiv.org/html/2606.07953#bib.bib74),40 (https://arxiv.org/html/2606.07953#bib.bib82),43 (https://arxiv.org/html/2606.07953#bib.bib87)]忽视了视觉-文本提示的交互,缺乏对工业场景的深入理解。 见图注 图1:(a) 传统提示方法与我们的方法的对比。我们的方法解决了传统人工提示的主观性问题,并引入文本进一步细化语义。(b) 工业场景与自然场景差异很大。在自然场景中训练的模型难以在工业场景中泛化。 在工业场景中应用LVLMs的主要挑战是缺乏大规模工业检测数据[55 (https://arxiv.org/html/2606.07953#bib.bib128),13 (https://arxiv.org/html/2606.07953#bib.bib108),78 (https://arxiv.org/html/2606.07953#bib.bib56)],无法找到泛化的多领域统一工业场景基准。为解决上述问题,我们创建了一个名为MMIOC-1M的大规模多模态工业开放-封闭基准。MMIOC-1M为每个类别提供了多模态视觉-文本注释。MMIOC-1M由来自31个不同工业缺陷领域的超过1M+样本组成。MMIOC-1M专为开放-封闭工业检测中的独特特征分布而设计,有效缓解了LVLMs在工业领域缺乏专业知识的问题。据我们所知,MMIOC-1M是首个用于工业缺陷检测的大规模开放-封闭基准,能够催化LVLMs在工业开放性方面的发展。 为了解决人工提示的问题,一些方法[44 (https://arxiv.org/html/2606.07953#bib.bib75),83 (https://arxiv.org/html/2606.07953#bib.bib76)]结合语义模型[68 (https://arxiv.org/html/2606.07953#bib.bib31),20 (https://arxiv.org/html/2606.07953#bib.bib30)]获取目标的伪掩码。CPT[75 (https://arxiv.org/html/2606.07953#bib.bib77)]和ReCLIP[53 (https://arxiv.org/html/2606.07953#bib.bib78)]使用视觉提示建立实例之间的关系。Hu等人[22 (https://arxiv.org/html/2606.07953#bib.bib80)]设计了一种采样策略,为SAM提取伪模板作为提示。CoCoOp[71 (https://arxiv.org/html/2606.07953#bib.bib79)]将图像生成的提示转化为条件输入,并动态地将其与语言提示结合。这些方法忽视了伪掩码中的误报,并依赖人工超参数的敏感性。因此,它们严重依赖伪掩码的质量,泛化能力较差。此外,诸如GroundingDino[43 (https://arxiv.org/html/2606.07953#bib.bib87)]和YOLO-World[10 (https://arxiv.org/html/2606.07953#bib.bib95)]等开放词汇模型提出使用单一文本提示来增强特征。然而,这些方法缺乏细粒度的图像特征提示。与自然场景不同,开放的工业场景带来了独特的挑战。由于来自不可见类别的大量噪声,单纯依赖视觉或文本提示难以在高噪声场景中保持鲁棒性。 为解决上述问题,我们提出了精细化文本-视觉提示网络(RTVPNet),以提升VLM在工业场景中的开放检测能力。基于自然场景中的Mobile-SAM[77 (https://arxiv.org/html/2606.07953#bib.bib74)],RTVPNet进一步增强了其在工业场景中的泛化能力。RTVPNet引入了一种基于Mobile-SAM的专家辅助机制,自动生成粗粒度分割特征,并将这些特征编码到低维空间。鉴于工业图像的独特性,我们对分割特征进行能量激活,提取目标的不确定性分数。然后,我们设计了一种稀疏建模样本选择策略,通过不确定性分数从增强特征中提取语义线索,以获得精细化视觉提示。最后,精细化视觉提示与文本提示交互,生成语义特定对象的提示嵌入。基于Mobile-SAM的固有能力,RTVPNet提升了模型在理解和泛化方面的能力,尤其是在工业开放场景中。在MMIOC-1M、LVIS[18 (https://arxiv.org/html/2606.07953#bib.bib135)]和COCO[39 (https://arxiv.org/html/2606.07953#bib.bib40)]上进行的多个开放和封闭场景实验,证明了MMIOC-1M的价值以及RTVPNet的有效性。 本文部分内容最初发表于AAAI 2025[86 (https://arxiv.org/html/2606.07953#bib.bib131)]。我们在先前工作的基础上进行了若干有价值的扩展:1)与MMIO-80K相比,MMIOC-1M支持开放和封闭场景下的缺陷检测。MMIOC-1M包含超过1M个样本和31个工业场景,促进了大规模多模态工业基准的发展。2)与先前的RTVP版本[86 (https://arxiv.org/html/2606.07953#bib.bib131)]相比,我们新设计了文本-视觉双向交互、领域迁移和基于能量的视觉提示优化方法,并增加了视觉定位、目标检测和视觉问答任务。RTVPNet能够提供比RTVP更详细、噪声更少的文本-视觉提示。3)我们还增加了新的实验和更详细的分析,以证明我们方法的优势。 总之,我们的贡献包含三个方面: - • **MMIOC-1M基准**。我们引入了首个用于统一工业开放-封闭检测的大规模多模态基准。MMIOC-1M包含超过一百万个样本,涵盖1414个超类、2929个工业场景以及351351个缺陷子类,支持包括视觉定位、目标检测和视觉问答在内的多个下游任务。该基准通过提供全面的多领域覆盖以及针对开放词汇和闭集场景的标准评估协议,填补了工业LVLM研究中的关键空白。 - • **RTVPNet基线**。我们提出了一种专为工业检测设计的精细化文本-视觉提示网络,具有三项关键创新:(1)专家辅助领域投影,实现从自然领域到工业领域的快速适应;(2)基于能量的稀疏采样,无需人工干预即可自动生成精细化视觉提示;(3)双向文本-视觉交互,增强了跨模态语义对齐。在MMIOC-1M、LVIS和COCO上的实验表明,RTVPNet在保持计算效率的同时取得了最先进的性能。 - • **评估**。我们建立了工业开放-封闭检测的标准协议,并在MMIOC-1M、LVIS和COCO上进行了大量实验。结果表明,MMIOC-1M作为一项具有挑战性的基准具有重要价值,同时验证了RTVPNet相较于最先进方法的有效性。 本文组织如下:第2节介绍工业多模态数据集和VLM的背景知识。第3节详细介绍MMIOC-1M的构建过程和分析。第4节介绍RTVPNet的架构设计。第5节展示实验结果和结论。讨论与结论分别在第6节和第7节中呈现。 ## 2 相关工作 表I: MMIOC-1M与大规模工业缺陷数据集对比。Gen.表示生成,Misc.表示合成。 | 数据集 | 类别数 | 样本数 | 模态 | 类型 | 年份 | 场景类别 | |--------|--------|--------|------|------|------|----------| | MMAD[25 (https://arxiv.org/html/2606.07953#bib.bib122)] | 24 | 48,366 | RGB,文本 | 合成 | 2024 | 38(封闭) | | Defect Spectrum[74 (https://arxiv.org/html/2606.07953#bib.bib120)] | 12 | 55,438 | RGB,文本 | 生成 | 2024 | 14(封闭) | | VISION[3 (https://arxiv.org/html/2606.07953#bib.bib121)] | 44 | 18,000 | RGB | 合成 | 2023 | 14(封闭) | | PKU-GoodsAD[79 (https://arxiv.org/html/2606.07953#bib.bib125)] | 1 | 26,124 | RGB | 商品 | 2023 | 6(封闭) | | MVTec AD[5 (https://arxiv.org/html/2606.07953#bib.bib96)] | 7 | 35,354 | RGB | 合成 | 2019 | 15(封闭) | | VisA[96 (https://arxiv.org/html/2606.07953#bib.bib123)] | 7 | 8,210 | RGB | 电子 | 2022 | 12(封闭) | | Real-IAD[60 (https://arxiv.org/html/2606.07953#bib.bib126)] | 8 | 150,000 | RGB | 材料 | 2024 | 30(封闭) | | MulSen-AD[36 (https://arxiv.org/html/2606.07953#bib.bib127)] | 1 | 4,035 | RGB,3D,红外 | 材料 | 2024 | 15(封闭) | | 3CAD[72 (https://arxiv.org/html/2606.07953#bib.bib124)] | 12 | 27,039 | RGB | 电子 | 2025 | 8(封闭) | | Industrial Textile Dataset[55 (https://arxiv.org/html/2606.07953#bib.bib128)] | 10 | 6,000 | RGB | 纺织 | 2023 | 1(封闭) | | Ind[94 (https://arxiv.org/html/2606.07953#bib.bib110)] | 30 | 600,000 | RGB | 合成 | 2023 | 11(封闭) | | BeanTech[48 (https://arxiv.org/html/2606.07953#bib.bib107)] | 3 | 2,830 | RGB | 合成 | 2021 | 3(封闭) | | MMIO-80K(先前工作)[86 (https://arxiv.org/html/2606.07953#bib.bib131)] | 100 | 21,836 | RGB,文本 | 合成 | 2024 | 18(开放-封闭) | | MMIOC-1M | 351 | 1,000,000 | RGB,文本 | 合成 | 2025 | 29(开放-封闭) | ### 2.1 工业数据集 多年来,工业缺陷检测相关数据集的规模……
相似文章
工业场景中的零样本学习:新的大规模基准、挑战与基线
本文提出了一个用于零样本工业缺陷检测的大规模多模态数据集(MMIO),并介绍了改进文本-视觉提示(RTVP)方法,在该基准上取得了最优结果。
重新思考边缘持续异常检测:在真实工业条件下的基准测试
本文介绍了一个用于工业检测中持续异常检测的统一基准,解决了不现实的评估和边缘部署约束问题,并提出了DINOSaur,一种无需训练的方法,在边缘硬件上以零遗忘和低于100毫秒的推理速度优于现有方法。
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。
面向多模态在线分布式工业异常检测的参数高效多类智能调度
本文提出MODIAD,一种面向多模态在线分布式工业异常检测的框架,通过多类智能调度问题和资源高效类级低秩自适应(REC-LoRA)策略解决资源约束问题。在MVTec 3D-AD和Eyecandies数据集上的实验展示了卓越的性能和效率。
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。