IndustryBench-MIPU:面向工业产品多图像属性值提取的基准

Hugging Face Daily Papers 论文

摘要

IndustryBench-MIPU 是一个大规模的多图像工业产品理解基准,评估了9个MLLM,揭示了一个完整性差距:精度高但属性恢复率低。

工业产品(如阀门和断路器)由密集的技术规格定义,这些规格决定了供应链中的采购、兼容性和安全性。这些规格分散在多个异构产品图像中,包括规格表、铭牌和技术图纸,但多模态大语言模型(MLLMs)能否可靠地恢复它们尚未得到充分探索。为填补这一空白,我们推出了 IndustryBench-MIPU,这是首个面向多图像工业产品理解的大规模基准,围绕结构化属性提取(从产品图像中恢复属性-值对)构建。该任务同时探索了规格表和铭牌上的文本识别、技术图纸的视觉推理、解码工业术语的领域知识,以及跨图像证据整合以汇集分散的规格。具体来说,该基准包含 4,559 个产品、27,652 张图像和 103,703 条注释,涵盖 18 个工业类别,通过多模型共识和三级质量保证构建。对 9 个 MLLM 在单图像和产品级多图像设置下的评估揭示了一个明显的完整性差距:模型实现了高精度(86% 至 94%),但最好的模型仅恢复了 49.9% 的产品级属性;从单图像到多图像提取,召回率下降了 15 到 34 个百分点。多图像完整性(而非单图像准确性)是核心瓶颈。数据集和代码已公开提供。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - IndustryBench-MIPU:面向工业产品的多图像属性值提取基准

来源:https://huggingface.co/papers/2606.14383 大家好!很高兴分享我们来自阿里巴巴的团队最新工作:IndustryBench-MIPU

尽管多模态大语言模型(MLLMs)越来越多地应用于通用视觉任务,但理解复杂的工业产品需要整合分散在多种异构图像(包括规格表、铭牌和技术图纸)中的详细技术规格。为弥补这一差距,我们构建了首个大规模多图像工业产品理解基准。

本基准的主要亮点:

**海量规模:**包含 4,559 种产品,27,652 张图像,103,703 条标注,覆盖 18 个工业类别。

**复杂挑战:**该任务要求模型协同完成文本识别、技术图纸的视觉推理、领域知识解读以及跨图像证据整合。

**核心发现:**我们评估了 9 个 MLLMs,发现一个显著的信息完整性缺口。当前模型的精确率较高(86%-94%),但表现最佳的模型也仅能恢复 49.9% 的产品级属性。

我们的评估证明,多图像完整性(而非单图像准确性)才是真实工业AI的真正瓶颈。随着我们不断突破多模态与工业智能的边界,希望该数据集和基准能够为社区提供有价值的测试平台。

欢迎分享你的想法、反馈,以及你的模型表现!

**论文:**arxiv.org/abs/2606.14383

**数据集:**huggingface.co/datasets/alibaba-multimodal-industrial-ai/IndustryBench-MIPU

**代码:**github.com/alibaba-multimodal-industrial-ai/IndustryBench-MIPU (https://github.com/alibaba-multimodal-industrial-ai/IndustryBench-MIPU)

相似文章