VLMs 是否像工程师一样推理?一个基准与分阶段评估

arXiv cs.AI 论文

摘要

本文介绍了 EngVQA,一个用于评估视觉语言模型工程推理能力的多模态基准,以及一个 8 阶段自动评估框架,能够对推理失败进行细粒度分析。它揭示了当前 VLMs 在工程推理能力上的重大局限性。

arXiv:2606.10833v1 公告类型:新 摘要:视觉语言模型(VLMs)在通用多模态推理基准上表现出色,但其执行工程推理的能力仍 largely unexplored。与通用视觉问答不同,工程问题解决需要解读技术图纸、选择支配性物理原理,并保持物理一致的多步推理。这些能力对于用于工程教育、科学辅助和技术决策的 AI 系统日益重要,在这些系统中,推理失败可能产生物理上无效但表面合理的解决方案。现有基准主要评估最终答案,对中间推理过程的评估有限。我们介绍了 EngVQA,一个涵盖 5 个工程学科、包含 696 个问题的多模态基准,用于评估工程推理。我们还引入了一个 8 阶段自动评估框架来评估 VLM 生成的解决方案。该框架独立评估解决方案的每个阶段,从而能够对推理失败进行细粒度分析。我们在该评估框架上对多个最先进的开源和闭源 VLM 进行了基准测试,并展示了当前工程推理能力的重大局限性。人工评估与我们的自动框架显示出高度一致性,在 10 分制评分标准上实现了 0.975 的皮尔逊相关系数和 0.67 的平均绝对误差。我们的结果强调了面向过程的评估对于可靠评估多模态工程推理系统的重要性。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:17

# 多模态大模型能否像工程师一样推理?一个基准与分阶段评估框架  
来源:https://arxiv.org/html/2606.10833  

Syed Wasiq\*, Syed Mohamad Tawseeq\*, Yashwant Pravinrao Bangde, and Debaditya Roy  
syedwasiq12@kgpian\.iitkgp\.ac\.in, tawseeq@kgpian\.iitkgp\.ac\.in, yashwant@kgpian\.iitkgp\.ac\.in, debaditya@cse\.iitkgp\.ac\.in  
Indian Institute of Technology Kharagpur  

###### 摘要  

视觉语言模型(VLM)在通用多模态推理基准上表现出色,但其执行工程推理的能力仍未得到充分探索。与通用的视觉问答不同,工程问题求解需要解读技术图纸、选择支配物理原理、并保持物理一致的多步推理。这些能力对于用于工程教育、科学辅助和技术决策的AI系统日益重要,因为推理失败可能产生物理上无效但表面上合理的解决方案。现有基准主要评估最终答案,对中间推理过程的评估有限。我们提出**EngVQA**,一个跨5个工程学科、包含696个问题的多模态工程推理基准。我们引入一个8阶段自动评估框架,用于评估VLM生成的解决方案。该框架独立评估解决方案的每个阶段,从而能够细粒度分析推理失败。我们在该评估框架上对多个最先进的开源和闭源VLM进行了基准测试,展示了当前工程推理能力的显著局限。人工评估显示与我们的自动化框架高度一致,在10分制评分尺度上达到了0.975的皮尔逊相关性和0.67的平均绝对误差。我们的结果强调了过程导向评估对于可靠评估多模态工程推理系统的重要性。  

## 1 引言  

最近的视觉语言模型(VLM),如GPT-4V(OpenAI,2023)和Gemini Pro(Gemini,2025),显著推进了多模态推理和视觉理解能力。然而,现有基准包括VQA(Agrawal et al.,2016)、GQA(Hudson and Manning,2019)、ScienceQA(Lu et al.,2022)和MathVista(Lu et al.,2024)主要评估符号推理和最终答案正确性,对涉及技术图纸、控制方程和多阶段分析流程的物理接地工程推理评估有限。最近的工程导向基准如EngiBench(Zhou et al.,2026)、EEE-Bench(Li et al.,2025)正向工程导向评估迈进,但仍有重要局限。EngiBench主要关注文本工程推理和能力级别的评分评估,没有明确的中间推理阶段分解。EEE-Bench强调电气和电子工程中的多模态理解,但仍主要评估最终答案正确性而非结构化工程工作流程。最近的推理感知和过程导向评估框架包括G-Eval(Liu et al.,2023a)、Prometheus(Kim et al.,2024)、ProcessBench(Zheng et al.,2025)和Thinking-LLM-as-a-Judge(Saha et al.,2025)表明结构化推理感知评估提高了自动评估的可靠性。  

为解决这些局限,我们提出**EngVQA**,一个涵盖5个学科的真实工程问题基准:流体力学、传热传质、动力学、材料力学和热力学。该基准要求对技术图纸、物理原理、符号推导和多步定量分析进行联合推理。  

表1:多模态科学与工程推理基准在工程真实性、技术图表理解、过程级评估和物理感知推理约束方面的比较。  

在基准基础上,我们提出**EngJudge**,一个8阶段过程导向评估框架,将工程解决方案分解为可解释的推理阶段,同时对相互关联的推理阶段进行依赖感知的错误传播建模。EngJudge独立评估局部推理阶段,提高了可解释性,并减少了与整体评估方法相比的评估者歧义。为验证EngJudge的可靠性,我们还与工程学生进行了人工验证研究。我们的发现表明,该框架的自动化分数与人类专家评分理念高度一致,展示了其作为结构化、过程导向评估工具的可信潜力。表1总结了现有基准与我们方法的差异。我们的贡献如下:  

- • 我们提出**EngVQA**,一个包含696个真实工程问题的多模态基准,要求对技术图纸、物理原理、符号推导和多步定量分析进行推理。  
- • 我们提出**EngJudge**,一个8阶段过程导向评估框架,对依赖感知的推理失败进行建模,并与人类专家评估者高度一致。  
- • 我们证明最先进的VLM在工程推理中表现出显著弱点,特别是在图表解读、方程选择、假设验证和物理一致的多阶段分析方面。  

## 2 相关工作  

##### 工程与科学推理基准  
最近的基准探索了大型语言和视觉语言模型在科学和工程推理中跨不同领域的能力。通用多模态推理基准如MMMU(Yue et al.,2024)评估跨大学级别学科的广泛视觉推理,而科学推理数据集如SciBench(Wang et al.,2024)、ScienceQA(Lu et al.,2022)和MathVista(Lu et al.,2024)主要关注科学问题求解、符号推理和最终答案正确性。最近的工程导向基准将多模态评估扩展到STEM和应用工程领域。EngiBench(Zhou et al.,2026)评估以工程为中心的问题回答任务,而EEE-Bench(Li et al.,2025)引入涉及电路图和技术示意图的电气工程多模态推理问题。SeePhys(Xiang et al.,2025)研究视觉接地物理推理,CSVQA(Jian et al.,2025)探索教育环境中的多模态STEM推理。现有基准主要通过最终答案正确性或整体解决方案级别评分来评估推理。  

##### 分阶段推理与过程评估  
最近的研究表明,仅凭最终答案正确性不足以评估现代语言和视觉语言模型的推理质量(Lightman et al.,2023;Golovneva et al.,2023)。随着模型越来越多生成长链思维推理,评估中间推理行为对于理解逻辑一致性、事实正确性和推理可靠性变得重要。ROSCOE(Golovneva et al.,2023)引入细粒度指标,用于评估生成推理轨迹在语义和逻辑一致性方面的表现。Lightman等人(2023)证明过程监督可以通过奖励中间推理正确性而不是仅依赖最终答案来改善数学推理。ProcessBench(Zheng et al.,2025)通过中间推理链的阶段验证来研究数学设置中的过程级推理失败。  

##### LLM作为评判者与结构化评估  
近期研究越来越多探索使用大型语言模型作为推理和生成任务的自动评估者(Zheng et al.,2023;Liu et al.,2023b;Kim et al.,2024)。G-Eval(Liu et al.,2023b)证明结构化评分标准指导的评估可以提高LLM评估的可靠性和可解释性,而Prometheus(Kim et al.,2024)探索细粒度评分标准条件下的评估策略以实现可扩展的自动评估。最近的框架研究评估本身的结构化推理策略。Thinking-LLM-as-a-Judge(Saha et al.,2025)提出规划导向的评判策略,其中评估者在分配分数之前先通过结构化评估计划进行显式推理。  

## 3 EngVQA基准  

表2:EngVQA的学科统计。ATPQ(每问题平均主题数),流体力学(FM),传热传质(HMT),材料力学(MoM),热力学(Thermo),动力学(Dyn)。  

### 3.1 基准设计原则  

我们选择的题目-解答对符合EngVQA的基准设计原则:(1)**图表接地分析推理**:问题要求直接从技术图形(如自由体图、热力学图、流动示意图、应力分布和工程布局)中提取几何、边界条件、力方向、流动结构、材料界面和空间约束。(2)**结构化多阶段推理**:解决方案涉及多个相互依赖的推理阶段,包括问题表征、假设制定、视觉解读、方程选择、符号推导、代数计算和物理验证。(3)**物理约束的工程工作流程**:问题要求在领域特定的工程约束下进行物理有效的推理。模型必须在整个求解过程中保持视觉解读、控制方程、简化假设和最终定量预测之间的一致性。  

### 3.2 基准统计  

表2总结了EngVQA的学科组成和推理多样性。该基准涵盖五个基础工程学科,包含696个问题,要求对技术图表、控制方程、符号推导和物理约束进行多模态推理。该基准并非集中于少量狭窄问题模板,而是包含不同主题的多样化问题分布。学科分布反映了工程推理工作流程的广度和多样性。动力学和材料力学强调自由体分析、力相互作用和刚体推理,而热力学与传热传质涉及物理约束的能量系统分析、物性关系和输运现象。流体力学问题额外要求对流动结构、压力分布和守恒定律进行空间推理。在所有学科中,技术图表在下游分析公式化中起着核心作用,使得视觉解读成为成功问题求解的必要组成部分,而非辅助背景。每问题平均主题数衡量了跨领域的推理密度。该指标强调,在我们的基准中解决一个典型问题需要同时整合和综合多个物理概念,这根本上增加了问题的难度。每个学科的完整主题列表见附录B。  

## 4 EngJudge:分阶段评估  

评估工程推理需要的不仅仅是最终答案正确性,因为失败常常出现在中间推理阶段,如假设制定、图表解读、方程选择和计算。为捕捉这种过程级行为,我们开发了**EngJudge**,一个分阶段评估框架,其动机来自对gemini-2.0-flash-exp在3个学科(流体力学、传热传质和材料力学)的解决方案进行的错误分析。我们的分析表明,工程推理失败是多方面的,很少孤立发生。我们还观察到视觉解读形成一种结构上独特的失败模式,而错误相关性表明工程推理最好建模为**部分依赖**的过程,而非完全独立的过程(附录A)。这些发现促使EngJudge的两个关键设计选择:对局部推理阶段的独立评估,以及沿经验观察到的推理边界的依赖传播。  

参见图注  
图1:一个代表性示例问题,LLM生成的解决方案显示从错误假设开始的错误传播影响了其余部分。  

图1展示了一个流体力学问题中的失败案例。在这里,一个简单的逐步骤平均指标会因积分步骤出现错误数值系数而惩罚,未能认识到数学内部一致但被先前错误破坏。通过解耦这些阶段并跟踪失败链(假设→方程选择→代数精度→最终答案),EngJudge将失败的根本原因定位在物理建模而非数学执行上。  

### 4.1 评估框架  

参见图注  
图2:所提出的EngJudge评估框架概览。A. VLM为包含文本和技术图表的工程问题生成结构化的逐步解决方案。B. 解决方案被分解为八个推理阶段,每个阶段使用评分标准引导的LLM作为评判者的提示(附录F.3)进行独立评估,采用基于惩罚的评分和致命错误检测。C. 阶段分数随后通过依赖图传播(颜色对应B中的步骤),D. 并使用元评估检查进行聚合,以产生0–10分尺度上的最终可解释分数。  

我们引入一个多阶段、基于惩罚的自动评估框架**EngJudge**,用于对LLM生成的研究生级别工程问题解决方案进行评分。该框架不依赖于整体或单一分数评估(Zheng et al.,2023;Liu et al.,2023b),而是对解决方案进行分解。

相似文章

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

揭示VLM可解释的故障模式

arXiv cs.AI

本文介绍了Revelio,这是一个通过搜索离散概念组合来系统性地发现视觉语言模型(VLM)中可解释故障模式的框架。应用于自动驾驶和室内机器人领域,它揭示了此前未报道的、可能导致碰撞或安全危险的漏洞。