MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强

Hugging Face Daily Papers 论文

摘要

本文介绍了MechVQA,一个包含3.3k高密度机械工程图纸和21k问答对的数据集,以及MechVL模型,该模型在MechVQA总分上优于现有基线7.57个百分点,推动了多模态LLM对机械图纸的理解。

多模态大语言模型(MLLMs)在通用视觉问答(VQA)任务中取得了显著成就。然而,它们在机械工程图纸上仍然脆弱,因为高标注密度和薄弱的领域知识,加上在严格的投影规则和几何约束下不可靠的空间关系推理,使得关键线索容易被遗漏,并经常导致错误答案。为了弥补这一差距,我们引入了首个全面的机械图纸理解数据集MechVQA,通过半自动构建与质量控制流程创建。MechVQA包含3.3k高密度图片和21K问答对,涵盖三个能力级别(识别、推理和判断)下的10个不同细粒度任务,为评估和提升MLLM在真实世界机械图纸上的理解能力提供了测试平台。在MechVQA的基础上,我们通过多阶段训练范式开发了MechVL模型,构建了一个强大的领域专用基线。大量实验结果表明,MechVL在MechVQA总分上优于最强的闭源基线7.57个百分点,显著提升了机械图纸理解能力,并为在机械设计和检测场景中部署MLLM提供了可复用的基础。
查看原文
查看缓存全文

缓存时间: 2026/06/05 10:07

论文页面 - MechVQA:面向综合机械图纸理解的多模态大语言模型基准测试与增强

来源:https://huggingface.co/papers/2605.30794

摘要

通过专用数据集和领域特定模型,机械工程图纸理解能力得到了提升,该模型利用多阶段训练和高密度视觉问答标注,在性能上超越了现有的基准模型。

多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs) 在通用视觉问答(https://huggingface.co/papers?q=visual%20question%20answering)(VQA) 任务中已展现出显著成果。然而,在机械工程图纸(https://huggingface.co/papers?q=mechanical%20engineering%20drawings)领域,由于标注密度高、领域知识(https://huggingface.co/papers?q=domain%20knowledge)薄弱,加之在严格的投影规则(https://huggingface.co/papers?q=projection%20rules)和几何约束(https://huggingface.co/papers?q=geometric%20constraints)下空间关系推理(https://huggingface.co/papers?q=spatial%20relation%20reasoning)的不可靠性,关键线索极易被忽略,常常导致错误答案。为弥补这一差距,我们引入了首个全面的机械图纸理解数据集 MechVQA,该数据集通过半自动构建与质量控制流程创建。MechVQA 包含 3.3k 张高密度图片,附有 21K 个问答对,涵盖三个能力级别(识别、推理与判断)下的 10 种不同细粒度任务,为评估和提升 MLLM 对真实机械图纸的理解能力提供了测试平台。在 MechVQA 基础上,我们进一步通过多阶段训练范式(https://huggingface.co/papers?q=multi-stage%20training%20paradigm)开发了 MechVL 模型(https://huggingface.co/papers?q=MechVL%20model),构建了一个强大的领域专用基线。大量实验结果表明,MechVL 在 MechVQA 总分上比最强的闭源基线高出 7.57 个百分点,显著增强了机械图纸理解能力,并为在机械设计与检测场景中部署 MLLM 提供了可复用的基础。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30794) 查看 PDF (https://arxiv.org/pdf/2605.30794) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30794)

将此论文添加到您的代理中:

hf papers read 2605\.30794

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。

引用此论文的数据集 0

暂无数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。

引用此论文的 Spaces 0

暂无 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。

包含此论文的收藏集 0

暂无收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

多模态视频理解中视觉状态追踪的基准测试

Hugging Face Daily Papers

介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。

VAMPS:视觉辅助数学问题求解基准

arXiv cs.AI

VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。