MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强
摘要
本文介绍了MechVQA,一个包含3.3k高密度机械工程图纸和21k问答对的数据集,以及MechVL模型,该模型在MechVQA总分上优于现有基线7.57个百分点,推动了多模态LLM对机械图纸的理解。
查看缓存全文
缓存时间: 2026/06/05 10:07
论文页面 - MechVQA:面向综合机械图纸理解的多模态大语言模型基准测试与增强
来源:https://huggingface.co/papers/2605.30794
摘要
通过专用数据集和领域特定模型,机械工程图纸理解能力得到了提升,该模型利用多阶段训练和高密度视觉问答标注,在性能上超越了现有的基准模型。
多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs) 在通用视觉问答(https://huggingface.co/papers?q=visual%20question%20answering)(VQA) 任务中已展现出显著成果。然而,在机械工程图纸(https://huggingface.co/papers?q=mechanical%20engineering%20drawings)领域,由于标注密度高、领域知识(https://huggingface.co/papers?q=domain%20knowledge)薄弱,加之在严格的投影规则(https://huggingface.co/papers?q=projection%20rules)和几何约束(https://huggingface.co/papers?q=geometric%20constraints)下空间关系推理(https://huggingface.co/papers?q=spatial%20relation%20reasoning)的不可靠性,关键线索极易被忽略,常常导致错误答案。为弥补这一差距,我们引入了首个全面的机械图纸理解数据集 MechVQA,该数据集通过半自动构建与质量控制流程创建。MechVQA 包含 3.3k 张高密度图片,附有 21K 个问答对,涵盖三个能力级别(识别、推理与判断)下的 10 种不同细粒度任务,为评估和提升 MLLM 对真实机械图纸的理解能力提供了测试平台。在 MechVQA 基础上,我们进一步通过多阶段训练范式(https://huggingface.co/papers?q=multi-stage%20training%20paradigm)开发了 MechVL 模型(https://huggingface.co/papers?q=MechVL%20model),构建了一个强大的领域专用基线。大量实验结果表明,MechVL 在 MechVQA 总分上比最强的闭源基线高出 7.57 个百分点,显著增强了机械图纸理解能力,并为在机械设计与检测场景中部署 MLLM 提供了可复用的基础。
查看 arXiv 页面 (https://arxiv.org/abs/2605.30794) 查看 PDF (https://arxiv.org/pdf/2605.30794) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30794)
将此论文添加到您的代理中:
hf papers read 2605\.30794
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。
引用此论文的数据集 0
暂无数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。
引用此论文的 Spaces 0
暂无 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.30794 即可从此页面链接。
包含此论文的收藏集 0
暂无收藏集包含此论文
将此论文添加至收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
VLMs 是否像工程师一样推理?一个基准与分阶段评估
本文介绍了 EngVQA,一个用于评估视觉语言模型工程推理能力的多模态基准,以及一个 8 阶段自动评估框架,能够对推理失败进行细粒度分析。它揭示了当前 VLMs 在工程推理能力上的重大局限性。
多模态视频理解中视觉状态追踪的基准测试
介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。
VAMPS:视觉辅助数学问题求解基准
VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
BilliardPhys-Bench: 多模态大语言模型的物理推理与视觉动态基准测试
BilliardPhys-Bench 是一个新的基准测试,通过合成台球场景来评估多模态大语言模型的物理推理能力,要求预测碰撞和最终球的位置。论文发现,当前模型在较长的模拟中表现不佳,并表现出一种“静态偏差”——在不确定时预测无交互。