IndustryBench-MIPU:面向工业产品多图像属性值提取的基准
摘要
IndustryBench-MIPU 是一个大规模的多图像工业产品理解基准,评估了9个MLLM,揭示了一个完整性差距:精度高但属性恢复率低。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - IndustryBench-MIPU:面向工业产品的多图像属性值提取基准
来源:https://huggingface.co/papers/2606.14383 大家好!很高兴分享我们来自阿里巴巴的团队最新工作:IndustryBench-MIPU。
尽管多模态大语言模型(MLLMs)越来越多地应用于通用视觉任务,但理解复杂的工业产品需要整合分散在多种异构图像(包括规格表、铭牌和技术图纸)中的详细技术规格。为弥补这一差距,我们构建了首个大规模多图像工业产品理解基准。
本基准的主要亮点:
**海量规模:**包含 4,559 种产品,27,652 张图像,103,703 条标注,覆盖 18 个工业类别。
**复杂挑战:**该任务要求模型协同完成文本识别、技术图纸的视觉推理、领域知识解读以及跨图像证据整合。
**核心发现:**我们评估了 9 个 MLLMs,发现一个显著的信息完整性缺口。当前模型的精确率较高(86%-94%),但表现最佳的模型也仅能恢复 49.9% 的产品级属性。
我们的评估证明,多图像完整性(而非单图像准确性)才是真实工业AI的真正瓶颈。随着我们不断突破多模态与工业智能的边界,希望该数据集和基准能够为社区提供有价值的测试平台。
欢迎分享你的想法、反馈,以及你的模型表现!
**论文:**arxiv.org/abs/2606.14383
**数据集:**huggingface.co/datasets/alibaba-multimodal-industrial-ai/IndustryBench-MIPU
**代码:**github.com/alibaba-multimodal-industrial-ai/IndustryBench-MIPU (https://github.com/alibaba-multimodal-industrial-ai/IndustryBench-MIPU)
相似文章
封闭-开放工业检测场景的统一:新的大规模基准、挑战与基线
介绍了MMIOC-1M,一个用于工业缺陷检测的大规模多模态基准,并提出了RTVPNet,一种精细的文本-视觉提示网络,实现了最先进的性能。
PIIBench:个人可识别信息检测的统一多源基准语料库
PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。
工业场景中的零样本学习:新的大规模基准、挑战与基线
本文提出了一个用于零样本工业缺陷检测的大规模多模态数据集(MMIO),并介绍了改进文本-视觉提示(RTVP)方法,在该基准上取得了最优结果。
Artifact-Bench:评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力
Artifact-Bench是一个综合性基准,用于评估多模态大语言模型在检测和分析AI生成视频伪影方面的表现,揭示了它们的显著局限性以及与人类感知的错位。
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。