MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强

Hugging Face Daily Papers 2026/05/29 00:00 论文

摘要

本文介绍了MechVQA，一个包含3.3k高密度机械工程图纸和21k问答对的数据集，以及MechVL模型，该模型在MechVQA总分上优于现有基线7.57个百分点，推动了多模态LLM对机械图纸的理解。

多模态大语言模型（MLLMs）在通用视觉问答（VQA）任务中取得了显著成就。然而，它们在机械工程图纸上仍然脆弱，因为高标注密度和薄弱的领域知识，加上在严格的投影规则和几何约束下不可靠的空间关系推理，使得关键线索容易被遗漏，并经常导致错误答案。为了弥补这一差距，我们引入了首个全面的机械图纸理解数据集MechVQA，通过半自动构建与质量控制流程创建。MechVQA包含3.3k高密度图片和21K问答对，涵盖三个能力级别（识别、推理和判断）下的10个不同细粒度任务，为评估和提升MLLM在真实世界机械图纸上的理解能力提供了测试平台。在MechVQA的基础上，我们通过多阶段训练范式开发了MechVL模型，构建了一个强大的领域专用基线。大量实验结果表明，MechVL在MechVQA总分上优于最强的闭源基线7.57个百分点，显著提升了机械图纸理解能力，并为在机械设计和检测场景中部署MLLM提供了可复用的基础。

查看原文

查看缓存全文

缓存时间: 2026/06/05 10:07

论文页面 - MechVQA：面向综合机械图纸理解的多模态大语言模型基准测试与增强

来源：https://huggingface.co/papers/2605.30794

摘要

通过专用数据集和领域特定模型，机械工程图纸理解能力得到了提升，该模型利用多阶段训练和高密度视觉问答标注，在性能上超越了现有的基准模型。

多模态大语言模型（https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models）(MLLMs) 在通用视觉问答（https://huggingface.co/papers?q=visual%20question%20answering）(VQA) 任务中已展现出显著成果。然而，在机械工程图纸（https://huggingface.co/papers?q=mechanical%20engineering%20drawings）领域，由于标注密度高、领域知识（https://huggingface.co/papers?q=domain%20knowledge）薄弱，加之在严格的投影规则（https://huggingface.co/papers?q=projection%20rules）和几何约束（https://huggingface.co/papers?q=geometric%20constraints）下空间关系推理（https://huggingface.co/papers?q=spatial%20relation%20reasoning）的不可靠性，关键线索极易被忽略，常常导致错误答案。为弥补这一差距，我们引入了首个全面的机械图纸理解数据集 MechVQA，该数据集通过半自动构建与质量控制流程创建。MechVQA 包含 3.3k 张高密度图片，附有 21K 个问答对，涵盖三个能力级别（识别、推理与判断）下的 10 种不同细粒度任务，为评估和提升 MLLM 对真实机械图纸的理解能力提供了测试平台。在 MechVQA 基础上，我们进一步通过多阶段训练范式（https://huggingface.co/papers?q=multi-stage%20training%20paradigm）开发了 MechVL 模型（https://huggingface.co/papers?q=MechVL%20model），构建了一个强大的领域专用基线。大量实验结果表明，MechVL 在 MechVQA 总分上比最强的闭源基线高出 7.57 个百分点，显著增强了机械图纸理解能力，并为在机械设计与检测场景中部署 MLLM 提供了可复用的基础。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30794) 查看 PDF (https://arxiv.org/pdf/2605.30794) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30794)

将此论文添加到您的代理中：

hf papers read 2605\.30794

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。

引用此论文的数据集 0

暂无数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。

引用此论文的 Spaces 0

暂无 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。

包含此论文的收藏集 0

暂无收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强

论文页面 - MechVQA：面向综合机械图纸理解的多模态大语言模型基准测试与增强

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

VLMs 是否像工程师一样推理？一个基准与分阶段评估

多模态视频理解中视觉状态追踪的基准测试

VAMPS：视觉辅助数学问题求解基准

Mind's Eye：面向多模态大模型的视觉抽象、变换与组合基准

BilliardPhys-Bench: 多模态大语言模型的物理推理与视觉动态基准测试

提交意见反馈