超越API:探究MLLMs在物理工具使用中的极限

arXiv cs.CL 论文

摘要

本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。

arXiv:2606.10803v1 公告类型:新 摘要:多模态大语言模型(MLLMs)擅长使用数字API,并日益成为具身AI的“大脑”,指导机器人与物理世界交互。在这种具身环境中,一个核心能力是使用物理工具,这支撑了MLLMs在现实任务中辅助人类的能力。尽管重要性显著,但MLLMs在物理工具使用方面的熟练程度仍 largely unexplored。为填补这一空白,我们提出了PhysTool-Bench,这是首个物理工具使用基准,旨在评估MLLMs理解真实世界场景、识别物理工具并规划其使用的能力。PhysTool-Bench包含2,510个查询,覆盖2,678个真实世界物理工具,涉及制造、电气工程、农业和医疗等多个领域。具体来说,模型从两个主要维度进行评估:1)识别场景中存在的所有物理工具,2)根据指令和视觉上下文规划工具选择和使用顺序。在13个领先的MLLMs中,即使是最强的模型(Gemini-3.1-Pro)也只能识别场景中58.7%的工具,并且仅完成21.0%的端到端查询。我们的分析揭示了两个层面的缺陷:MLLMs难以在现实场景中感知工具,而在规划阶段更大的下降进一步表明缺乏将感知到的工具映射到任务语义的功能常识,这指出了开发实用具身AI的关键瓶颈。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:12

# 超越接口:探究多模态大语言模型在物理工具使用中的局限性
来源:https://arxiv.org/html/2606.10803
马志鑫1\equal周宇彤2\equal李永琪2\advisor钟华(Chong-Wah Ngo)1 李文杰2
1新加坡管理大学,2香港理工大学
\{zhixinma97, yutongzhou714, liyongqi0\}@gmail.com

###### 摘要
多模态大语言模型(MLLMs)在利用数字API方面表现出色,并日益成为具身人工智能的“大脑”,指导机器人同物理世界交互。在这种具身设定下,一个核心能力是物理工具的使用,它支撑着MLLMs协助人类完成现实世界任务的能力。然而,尽管这一能力如此重要,MLLMs在物理工具使用方面的熟练程度仍鲜有探索。为弥补这一空白,我们提出了**PhysTool-Bench**,这是首个专门设计用于评估MLLMs理解现实场景、识别物理工具并规划其使用能力的物理工具使用基准。PhysTool-Bench包含了2510个查询,涵盖2678种来自制造、电工、农业、医疗等多个领域的真实物理工具。具体来说,我们从两个主要维度对模型进行评估:1)识别场景中存在的所有物理工具;2)基于指令和视觉上下文规划工具的选择和使用顺序。在对13个领先的MLLMs的评估中,即使是最强的模型(Gemini-3.1-Pro)也只能识别场景中58.7%的工具,并且只有21.0%的查询能够端到端完成。我们的分析揭示了一个两级缺陷:MLLMs难以在真实场景中感知工具,而规划阶段更大的性能下降进一步表明,它们缺乏将感知到的工具映射到任务语义的功能常识,这指出了发展实用具身人工智能的关键瓶颈。

## 1 引言

参见图1:数字工具使用与物理工具使用之间的能力鸿沟。MLLMs通过API可靠地解决结构化的数字任务(左),但在选择和排序现实场景中的工具时所需的视觉推理和物理常识方面则困难重重(右)。PhysTool-Bench评估的正是这种物理世界的能力。目标工具仅作示意高亮。

使用工具的能力长期以来一直是智能的核心能力,而大型语言模型(LLMs)最近在这方面取得了显著进展。最先进的LLMs现在能够有效地充当自主数字代理,使用软件API预订航班、查询数据库和浏览网页[yun23apibench, qin24toolllm]。然而,这些成功局限于具有API的数字世界。作为将AI部署到人类社会以提供帮助的关键一步,这些模型遵循指令并使用物理世界工具的能力也必须得到严格评估。

多模态大语言模型(MLLMs)正日益被视为具身人工智能的推理核心[li23manipllm]。通过整合视觉感知与语言理解,MLLMs使具身智能体能够将高层次指令(如“把厨房柜台上的红色马克杯拿给我”)具体化为机器人可执行的动作。最近的系统在室内导航[danny23palme]和物体操作[liu24robomamba]方面表现出色,而驱动这些进展的基准也主要关注这两项能力[xiang20sapien, mu21maniskill]。然而,物理世界中的工具使用,可以说是具身人工智能的下一个前沿,却受到的关注少得多。具体来说,当前的MLLMs在多大程度上能够识别、理解和利用物理工具,仍然是一个悬而未决的问题。

为了回答这个问题,我们提出了**PhysTool-Bench**,一个专门用于评估物理工具使用的基准。PhysTool-Bench包含2510个查询,涵盖2678种不同的物理工具,涉及制造、电工、农业、医疗等领域。每个查询将一条自然语言指令与一张真实环境(例如工作坊或厨房)的图像配对,模型必须识别出适合该任务的工具。如图1所示,给定一条指令如“准备一个木质搁板……”,模型必须按正确顺序选择正确的工具(手锯、刨子和吸尘器),同时拒绝视觉或功能上相似的干扰项。

我们在两个递进任务上评估MLLMs:**任务I(物理工具识别)**要求模型列举场景中可见的每一种工具;**任务II(工具选择与行动规划)**则进一步要求模型根据指令选择必要的工具,并按正确的执行顺序排列。这两个任务共同将模型“能看到什么”与“能推理什么”区分开来。PhysTool-Bench反映了真实世界的视觉和概念复杂性。每个场景平均包含8.6种工具,其中只有3.1种是指令所要求的;其余物品是日常工具,可能与目标工具视觉或功能上相关。86.9%的查询进一步要求按特定顺序使用多种工具,共同评估了选择与顺序规划能力。为了捕捉这两个维度的难度,我们报告了工具选择的集合级别F1以及严格的完全匹配(Exact Match, EM),后者要求预测的工具与真实工具集**以及**执行顺序完全匹配。

整个数据集通过多阶段质量控制流程(§3.2)进行筛选,一项人工参考研究证实了其质量:在标注者评为高熟悉度的查询上,人工EM达到75%,表明真实标注与知情的人类判断一致。我们在PhysTool-Bench上对13个领先的MLLMs进行了基准测试,包括商业模型(GPT-4o, GPT-5.2, Gemini-3.1-Pro, Qwen3-VL-Plus)和开源模型(Qwen3-VL, InternVL, Kimi-VL, DeepSeek-VL等)。四个发现尤为突出。

**(i) 识别并非易事。**即使是最强的模型也只能以58.7%的F1识别场景中的工具;大多数开源模型遗漏了一半以上的工具。**(ii) 行动规划困难得多。**Gemini-3.1-Pro在查询上的完全匹配(EM)成功率仅为21.0%,从两个工具查询的34.5% EM骤降至六个或更多工具查询的0.5%。**(iii) 功能混淆导致失败。**42–61%的错误源于将目标工具替换为场景中可见且在功能上相似的替代品;一个专门的开集检测器(Grounding DINO)甚至在最强大MLLM的召回率上高出13.4个百分点,这表明瓶颈在于物理常识而非感知。**(iv) 模型差距真实存在。**在所有熟悉度水平(包括不熟悉领域)上取平均,人类标注者的EM达到38%,远超最佳MLLM(21.0%),证实了这一差距反映的是模型能力而非任务的模糊性。

总之,我们的贡献如下:
- • **MLLM评估的新维度。**我们提出了PhysTool-Bench,这是首个专门用于物理工具使用的基准。这一能力连接了数字工具掌握与现实世界具身部署,然而尽管具身人工智能最近取得了进展,它仍然在很大程度上未被审视。
- • **诊断性评估框架。**我们的双任务设计将识别与指令条件下的选择和规划分开,隔离了从感知到推理流程中的失败。该基准提供了经过验证的真实标注,涵盖从制造到医疗等日常领域的2,678种工具的2,510个查询。
- • **有指向性的实证诊断。**在对13个最先进的MLLMs的评估中,我们发现物理工具使用的瓶颈并非原始感知,而是**功能常识**:即使模型正确感知到场景,它们也无法将工具映射到任务语义上。这指出了物理常识是发展实用具身人工智能的核心研究方向。

## 2 相关工作

### 2.1 数字工具学习的基准

近年来的研究已经展示了LLMs掌握使用外部工具解决复杂问题的能力[schick23toolformer, ReAct]。早期方法证实了工具学习在克服LLMs作为语言处理器的局限性同时保持其通用性方面的潜力[schick23toolformer]。受工具学习前景的鼓舞,已经建立了多种基准和评估研究来系统定义该问题。通用基准通常评估LLMs在各种API及其不同用例中的工具选择和工具调用能力[patil24gorilla]。随后的研究将范围扩展到行动规划和响应生成阶段[qin24toolllm],而后续版本则通过虚拟API服务器在稳定性和真实性之间取得了平衡[guo24stabletoolbench]。然而,这些现有的基准主要局限于文本模态和数字API环境。它们未能评估智能体如何视觉感知现实世界场景并操作物理工具。

### 2.2 具身行动规划的评估

从数字助手到物理机器人的转变,需要对高层次推理如何能植根于机器人可供性进行评估。自SayCan[ahn22saycan]引入预训练的机器人价值函数来评估每个规划步骤的可行性以来,研究人员一直在努力缩小LLM的高层语义知识与现实世界中长期任务规划和完成之间的差距。虽然PaLM-E[driess23palme]和RT-2[brohan23rt2]都实现了感知与行动规划的更紧密融合,但它们仍然主要关注基础的“拾取和放置”任务或空间重排,并且本质上将物体视为被动目标,而没有深入探究在复杂任务和规划中扮演重要角色的“工具”。BEHAVIOR-1K[li24behavior1k]以逼真的物理特性、对刚体、可变形材料和复杂热状态的苛刻交互来挑战智能体,但它并未明确评估多模态基础模型理解和规划专业设备的零样本认知能力。更近期,研究开始明确探索LLMs与机器人工具使用的交叉点。例如,RoboTool[xu24robotool]利用多智能体LLM流程生成可执行代码,使机器人能够创造性地使用物体来克服隐式物理约束。然而,其评估在规模上严重受限,仅包含六个任务场景,远远不足以提供对工具使用能力的全面评估。由于这些框架通常通过依赖预定义状态或简化环境来绕过原始视觉感知挑战,它们从根本上无法评估智能体从复杂现实场景中视觉识别多样化、专业性物理工具的能力。

## 3 物理工具使用基准

参见图2:PhysTool-Bench构建流程概览。Gemini根据工具库生成每个查询(任务指令、目标工具、干扰物),新颖的干扰物通过“工具库扩展”循环回用;然后Nano Banana Pro渲染场景。之后是三个质量控制阶段:QC-I细化目标并分配步骤标签;QC-II验证工具-描述对齐;QC-III通过人工审核检查视觉真实性。

本节详细阐述我们提出的基准的构建过程和特征。我们首先概述两个主要任务的定义(§3.1)。接下来,描述基准构建的标注流程和质量保证程序,包括目标工具组合、指令设计、混淆工具的注入以及视觉场景的生成(§3.2)。最后,对数据集统计特征进行分析(§3.3)。

### 3.1 问题形式化

每个评估实例(一个*查询*)是一个元组\((I, L)\),其中\(I\)是一张描绘物理场景的图像,包含一组可用工具;\(L\)是一条自然语言指令(例如,“粘合破碎的陶瓷碎片”)。令\(\mathcal{C} = \{c_1, \dots, c_N\}\)表示\(I\)中可见的完整工具集合,包括任务相关的目标和场景中的其他物品。我们在两个递进任务上评估MLLMs \(f_\theta\)。

**任务I:物理工具识别。** 给定图像\(I\)和识别提示\(P_{rec}\),模型输出预测的工具集合\(\hat{\mathcal{C}} = f_\theta(I, P_{rec})\),目标是恢复\(\mathcal{C}\)。该任务独立于任何任务指令,仅隔离模型从杂乱场景中枚举细粒度物理工具的能力。

**任务II:工具选择与行动规划。** 给定\(I\)和\(L\),模型输出一个有序序列\(\hat{Y} = f_\theta(I, L) = (y_1, \dots, y_K)\),其中每个\(y_i \in \mathcal{C}\)。真实标注为\(\mathcal{T}^* = \{(t_j, s_j)\}_{j=1}^M\),其中\(t_j \in \mathcal{C}\),\(s_j \in \mathbb{Z}_{\geq 1}\)是\(t_j\)的执行步骤索引。共享相同\(s\)值的工具是可互换的,而不同\(s\)值的工具必须遵循其优先顺序(\(s_j < s_k\)意味着在\(t_j\)之后使用\(t_k\))。任务II的目标是使\(\hat{Y}\)(顺序列表)与\(\mathcal{T}^*\)匹配。对于工具选择和行动规划,我们报告两种指标:用于衡量工具选择的集合级别F1(无序)和用于衡量顺序相关规划的严格完全匹配(EM)。

### 3.2 基准构建

#### 3.2.1 工具库编纂

我们从日常真实工具入手,通过系统编纂过程建立了一个全面的工具库。首先,我们从八个领域收集工具:汽车维修、工业制造、木工、建筑施工、电工、医疗、农业和家庭维修。我们构建了一个包含2,678种工具的库,并为每个条目标注了专业描述、常见任务及其合适的功率等级(手动/电动)。表2提供了代表性领域的示例。

表2:领域分布与工具示例

| 领域 | 工具示例(目标) | 常见任务 | 工具数量 |
|------|-----------------|----------|----------|
| 汽车维修 | 扳手、套筒、螺丝刀 | 拆卸轮胎、更换机油 | 385 |
| 制造 | 铣刀、卡尺、砂纸 | 金属切割、测量 | 376 |
| 木工 | 手锯、刨子、凿子 | 切割木材、打磨边缘 | 321 |
| 建筑施工 | 锤子、水平尺、泥铲 | 砌砖、墙面抹灰 | 298 |
| 电工 | 剥线钳、万用表、烙铁 | 接线、故障诊断 | 264 |
| 医疗 | 外科镊子、手术刀、止血钳 | 伤口处理、小手术 | 241 |
| 农业 | 镰刀、修枝剪、喷雾器 | 收割、修剪、喷洒 | 210 |
| 家庭维修 | 胶枪、美工刀、内六角扳手 | 家具组装、修复 | 583 |
| **总计** | | | **2,678** |

#### 3.2.2 数据生成

在建立的工具库基础上,我们构建了评估场景。我们的目标是通过包含功能上相似但并非任务必需的竞争性混淆工具,创建具有挑战性的场景。每个查询由**(i) 任务指令、(ii) 一组目标工具、(iii) 一组干扰工具和(iv) 一张场景图像组成**。我们使用两种互补的图像生成策略:照片收集和提示驱动的3D渲染。

**照片收集**:我们从库存照片平台收集了100张现实世界工作空间的照片,这些照片包含多种工具(例如,杂乱的工作台、车库、医疗托盘)。然后由领域专家对照片进行手动标注,识别所有可见工具,总共整理了452个真实照片查询。

**提示驱动的3D渲染**:为了在受控但具有挑战性的布局中进行大规模生成,我们利用先进的3D渲染引擎。我们使用Gemini 2.5 Pro规划场景布局,指定目标任务所需的目标工具,然后注入由Gemini从工具库中选择的额外混淆工具,这些混淆工具在视觉或功能上与目标相关。该流程(见图2)是可扩展的:它生成多样化的场景布局,并通过链式验证确保逻辑一致性。通过这种方式,我们增加了2,058个渲染查询,共计2,510个查询。

#### 3.2.3 质量控制

我们采用严格的三阶段质量控制流程,由领域专家监督。

**QC-I:目标细化与步骤标注。** 首先,验证每个查询的任务指令在现实中是否可行,并且给定的目标工具在给定场景中是否能够合理地完成该任务。如果需要,通过从工具库中添加或移除工具来细化目标集合,然后为每个目标分配一个离散的步骤序号,表示执行顺序。

**QC-II:工具-描述对齐。** 接下来,确保指令中的名词与视觉场景中的工具一一对应。我们要求标注者验证每个目标工具是否在图像中清晰可见,并且任务描述是否准确捕捉了所需的操作顺序。

**QC-III:视觉真实性审核。** 最后,由人类评审员评判渲染场景的视觉真实感。任何在灯光、纹理或空间布局上看起来不真实的场景都会被重新生成或从数据集中移除。在做出最终决定之前,评审员会查阅工具库中工具的标准外观图像,以确保工具模型在场景中的呈现不会误导识别。只有通过这三阶段的查询才会被纳入最终的PhysTool-Bench。

### 3.3 数据集统计

PhysTool-Bench包含2,510个查询,每种查询都经过人工验证以确保质量。图3展示了数据集的组成:

- **工具数量**:共有2,678种独特的工具;每个查询平均展示8.6种工具(目标+干扰物)。
- **任务复杂性**:86.9%的查询需要按特定顺序使用多种工具,共同评估了选择与顺序规划能力。
- **图像分辨率**:所有图像尺寸至少为1024×1024像素,确保细微的工具细节(如钳子齿、刻度标记)可见。

表3:数据集统计概览。值的范围表示“最小值–最大值”。

| 属性 | 统计 |
|------|------|
| 总查询数 | 2,510 |
| 工具总数(独特) | 2,678 |
| 领域 | 8(汽车、制造、木工、建筑、电工、医疗、农业、家庭维修) |
| 每个查询的目标工具数 | 平均3.1(范围2–14) |
| 每个查询的可见工具数 | 平均8.6(范围5–21) |
| 顺序需求(多步骤) | 86.9%的查询 |
| 图像分辨率 | ≥ 1024×1024 |

每个查询包含5到21种可见工具,平均密度为8.6种。尽管每个场景有这么多工具,平均只有3.1种是指令所要求的。大量的干扰工具(通常功能上相似)使得仅通过视觉相似性猜测正确答案变得困难。例如,一个“放油”指令可能涉及一个棘轮扳手、油底壳螺栓的套筒和接油盘;而场景中还会出现一套功能类似的套筒扳手、不同的套筒尺寸和类似的容器,迫使模型必须区分细微的功能差异。

为了估计基准中人类表现的理论上限,我们进行了一项小规模人类研究。三名具有不同机械背景的标注者参与了一项熟悉度调查,并将他们的答案与PhysTool-Bench的真实标注进行了比较。结果(详细分析见§5.3)表明,在标注者高度熟悉的任务上,EM得分达到75%;当平均包括不熟悉的任务时,EM得分为38%。这确认了PhysTool-Bench中的任务对人类来说是实际可行的,并提供了人类水平表现的参考点。

图3:数据集统计。(a) 每张图像中可见工具数量的分布;(b) 每个任务所需工具数量的分布;(c) 所需工具成本(美元)的分布。

## 4 实验

### 4.1 实验设置

我们在PhysTool-Bench上评估了13个最近的MLLMs。模型的主要特征总结于表4。

表4:评估模型概览。

| 模型 | 参数数量 | 语言模型骨干 | 视觉编码器 | 开源 |
|------|----------|--------------|------------|------|
| GPT-4o | — | GPT-4o | — | ✗ |
| GPT-5.2 | — | GPT-5.2 | — | ✗ |
| Gemini-3.1-Pro | — | Gemini | — | ✗ |
| Qwen3-VL-Plus | — | Qwen3 | — | ✗ |
| Qwen3-VL-72B | 72B | Qwen3 | — | ✓ |
| VILA-1.5-40B | 40B | — | — | ✓ |
| InternVL2.5-78B | 78B | — | — | ✓ |
| DeepSeek-VL2 | 236B | — | — | ✓ |
| LLaVA-Next-72B | 72B | — | — | ✓ |
| Kimi-VL-A3B | A3B | — | — | ✓ |
| MiniCPM-V-2.6 | 8B | — | — | ✓ |
| mPLUG-Owl3 | — | — | — | ✓ |
| Phi-3.5-Vision | 4.2B | — | — | ✓ |

#### 4.1.1 评估指标

我们使用两个指标来评估任务II:用于衡量工具选择的集合级别F1(无序)和用于评估顺序相关规划的严格完全匹配(EM)。EM要求预测的工具集与真实工具集匹配并且顺序正确。任务I(识别)仅报告F1。我们在所有查询上报告宏观平均值。

**完全匹配(EM)**:EM要求预测的工具集与真实工具集完全匹配(包括相同元素)并且步骤顺序一致。对于可互换的工具(共享相同步骤索引),允许重新排序,但跨越不同步骤索引的工具必须保持正确的顺序。

**F1(集合级别)**:F1分数基于预测工具集与真实工具集之间的精确率和召回率计算,忽略顺序。它衡量模型在混乱条件下选择正确子集的能力。对于任务II,F1评估工具选择(无论顺序);对于任务I,它评估整体场景识别。

我们用公式表示如下:

令\(T\)为真实工具集(来自\(\mathcal{T}^*\)的工具),\(P\)为预测工具集(来自\(\hat{Y}\)的工具)。则:
\[
\text{Precision} = \frac{|T \cap P|}{|P|}, \quad \text{Recall} = \frac{|T \cap P|}{|T|}, \quad F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}.
\]

对于有序序列评估,我们采用严格的完全匹配标准。对于预测序列\(\hat{Y} = (y_1, \dots, y_K)\)和真实序列\(\mathcal{T}^* = \{(t_j, s_j)\}_{j=1}^M\),我们根据步骤索引重新排列真实工具:令\(T^*_{\text{ordered}}\)为按步骤索引\(s_j\)排序的真实工具列表(相同索引时任何顺序都允许)。如果预测序列\(\hat{Y}\)在考虑顺序约束的情况下与\(T^*_{\text{ordered}}\)完全一致,则EM = 1;否则EM = 0。

#### 4.1.2 推理配置

所有模型使用其原始框架和默认超参数进行评估。我们使用贪心解码(温度=0)以获得确定性输出。对于商业模型,我们通过官方API进行评估;对于开源模型,我们在配备4×A100 GPU的本地服务器上运行。每个查询单独运行一次以避免记忆效应;我们不提供任何示例案例。完整提示见附录C。

### 4.2 主要结果

表5呈现了所有模型在任务I和任务II上的性能。我们报告两个指标以提供洞察。

表5:PhysTool-Bench上的识别与规划性能。(最好结果加粗;第二好加下划线)

| 模型 | 任务I(识别)F1 ↑ | 任务II(规划)EM ↑ | 任务II(规划)F1 ↑ |
|------|-------------------|--------------------|--------------------|
| **商业模型** | | | |
| GPT-4o | 49.2 | 13.9 | 46.8 |
| GPT-5.2 | 54.0 | 17.1 | 51.3 |
| Gemini-3.1-Pro | **58.7** | **21.0** | **55.3** |
| Qwen3-VL-Plus | 44.5 | 9.6 | 41.0 |
| **开源模型(大型)** | | | |
| DeepSeek-VL2 (236B) | 37.1 | 6.2 | 34.7 |
| InternVL2.5-78B | 40.8 | 8.1 | 38.2 |
| Qwen3-VL-72B | 40.2 | 7.8 | 37.5 |
| VILA-1.5-40B | 33.5 | 4.2 | 30.8 |
| LLaVA-Next-72B | 29.4 | 3.5 | 27.1 |
| **开源模型(小型)** | | | |
| Kimi-VL-A3B | 32.8 | 4.9 | 30.5 |
| MiniCPM-V-2.6 (8B) | 25.7 | 2.6 | 23.9 |
| mPLUG-Owl3 | 28.1 | 3.1 | 25.4 |
| Phi-3.5-Vision (4.2B) | 22.4 | 1.8 | 20.6 |

关键发现如下:

**识别与规划之间存在显著差距。** 每个模型在任务I(仅识别)和任务II(基于指令的规划)之间都显示出显著的性能下降。例如,Gemini-3.1-Pro在任务I上的F1为58.7%,但在任务II上的EM仅为21.0%,降幅达37.7个百分点。这表明即使模型正确识别了工具,它们仍然难以根据任务指令选择和排序这些工具。

**最强的商业模型表现出优势。** Gemini-3.1-Pro在两个任务上均取得最高分(识别F1为58.7%,规划EM为21.0%)。GPT-5.2排名第二(识别F1为54.0%,规划EM为17.1%),但差距仍然很大:Gemini-3.1-Pro的EM比GPT-5.2高出近4个百分点,比GPT-4o高出7个百分点。

**开源模型大幅落后。** 最大开源模型(DeepSeek-VL2,236B)达到37.1%的识别F1和6.2%的规划EM,远低于商业模型的对应值。较小开源模型(<10B)在EM上低于5%。即使是72B参数量的模型(Qwen3-VL-72B、LLaVA-Next-72B)也挣扎于规划任务,表明性能下降不仅仅由模型容量驱动,更与特性有关。

**工具数量严重影响性能。** 图4展示了Gemini-3.1-Pro在不同目标工具数量下的表现。EM从两个工具时的34.5%降至六个及以上工具时的0.5%——几乎完全失败。这种急剧下降表明当前MLLMs无法管理需要逻辑排序和工具选择的长序列。

图4:Gemini-3.1-Pro在不同所需工具数量下的EM性能。

### 4.3 错误分析

为了理解这些失败,我们手动分析了Gemini-3.1-Pro在100个随机查询样本上的错误,并根据失败模式对它们进行分类。

#### 4.3.1 错误类别

表6:错误类别与频率。

| 类别 | 描述 | 占比 |
|------|------|------|
| **功能混淆** | 预测的工具在功能上相似(例如,手锯代替电锯),但视觉上不同 | 48% |
| **视觉混淆** | 预测的工具在视觉上相似但功能不同(例如,美工刀代替手术刀) | 11% |
| **遗漏** | 模型未能识别所需的工具,即使它在场景中明显存在 | 22% |
| **幻觉** | 模型添加了场景中不存在的工具 | 19% |

**功能混淆(48%)** 是迄今为止最主要的失败类别。模型正确识别了一个工具,但未能将其映射到正确的功能角色。例如,对于“切割金属管”的任务,模型选择了“手锯”而不是“管道切割器”,尽管后者明显存在于场景中。这两种工具都位于同一场景,但手锯是用于木材的,而管道切割器是专用工具。这表明的是功能映射失败而非感知失败。

**遗漏(22%**)表明感知差距:模型根本没有看到或命名场景中所需的工具。这通常发生在杂乱场景中,较小的工具被遮挡或混合在一起。随着场景复杂度增加(工具数量>15),遗漏率也会增加。

**幻觉(19%)** 反映了模型产生实际图像中不存在的工具。特别是当场景模糊或前景/背景区分不清晰时,模型更倾向于猜测在高级别上合理的工具(如“锤子”),即使图像中不存在。

**视觉混淆(11%)** 相对较少。模型将一种工具误认为是视觉上相似的另一种工具。例如,将“剥线钳”误认为是“鲤鱼钳”。

图5:不同MLLMs在PhysTool-Bench上主要错误类别的分布。

### 4.4 消融研究:训练数据与策略的影响

在本节中,我们进行一系列消融实验,以调查不同训练策略如何影响物理工具使用。我们将商用模型(Qwen3-VL-Plus)的性能与开源模型(Qwen3-VL-72B、InternVL2.5-78B)进行比较,并测试不同提示策略的效果。

#### 4.4.1 提示策略

我们比较了三种提示策略:(1)**零样本**:仅为模型提供指令和图像,无先前示例。(2)**少样本(2-shot)**:在查询之前提供两个带标注的示例,展示工具选择和顺序。(3)**思维链(CoT)**:提示模型在给出最终答案之前逐步推理每个工具。我们在表7中报告结果。

表7:不同提示策略下的性能。(EM / F1)

| 模型 | 零样本 | 少样本(2-shot) | 思维链 |
|------|--------|-----------------|--------|
| Gemini-3.1-Pro | 21.0 / 55.3 | 22.4 / 56.7 | 23.8 / 57.9 |
| GPT-5.2 | 17.1 / 51.3 | 18.6 / 52.9 | 19.5 / 53.8 |
| Qwen3-VL-72B | 7.8 / 37.5 | 9.2 / 39.1 | 10.4 / 40.6 |

思维链推动了一致的改进(+1.8–2.6 EM),表明推理能力是物理工具使用的关键组成部分。然而,即使有思维链,复杂查询(>5个工具)的EM仍然低于10%。

#### 4.4.2 场景复杂度

我们根据三个因素分解Gemini-3.1-Pro的性能:可见工具数量(低:5–8,中:9–12,高:13–21)、领域特定性(通用与专业)以及目标工具数量(2、3–5、6+)。图6呈现了结果。

- **可见工具数量**:从低复杂度(5–8个工具,EM = 34.2%)到高复杂度(13–21个工具,EM = 9.8%),EM下降了超过24个百分点。杂乱是规划能力的主要实际障碍。
- **领域特定性**:通用任务(如“挂一幅画”)的EM(31.5%)高于专业任务(如“给空调系统加氟”,EM = 12.8%)。专业任务通常需要领域特定的工具知识,而模型明显缺乏。
- **目标工具数量**:正如之前观察到的,EM随着所需工具数量的增加而急剧下降,从两个工具的34.5%降至六个及以上工具的0.5%。

图6:场景复杂度对性能的影响:(a) 可见工具数量,(b) 领域熟悉度,(c) 所需工具数量。

## 5 讨论

### 5.1 物理常识:缺失的联系

我们的实验表明,当前MLLMs中的核心瓶颈是**物理常识**:理解工具在物理世界中的功能角色的能力。考虑一个简单的任务:“固定一块开裂的木头”。模型经常选择“胶带”而不是“木胶”,因为前者是一个更普通的日常概念。然而,在专业修复任务中,木胶在强度和耐久性上更优越。模型未能捕捉到这种细微差别,因为它缺乏任务约束的常识:固定开裂的木头需要粘合木材内部纤维,这是木胶长期承担的功能,而胶带仅提供临时表面附着力。同样,对于“松开生锈的螺丝”指令,模型可能选择“螺丝刀”而不是“冲击起子”或“除锈剂”,忽略了物理摩擦的现实。这种在物理约束下将工具正确映射到任务的失败,反映了数字API环境中不存在的空白,在数字API中,API签名是明确定义的,并且输入与输出之间的关系在语法上是明确的。

### 5.2 感知基线的比较

为了评估机械感知的作用,我们比较了MLLM的性能与一个专业开集目标检测器Grounding DINO[liu24groundingdino]的表现。由于Grounding DINO输出边界框而不是名称,我们使用PhysTool-Bench中的所有2,678个工具名称作为查询提示,并使用(类别级召回率)作为标准。我们报告了Grounding DINO在任何边界框置信度阈值设置下的**最大召回率**;实际上,Grounding DINO在工具标签上的表现代表了**完美感知的上限**,因为MLLMs无法访问边界框信息。结果如图7所示。

Grounding DINO实现了**69.2%的召回率**,而Gemini-3.1-Pro在任务I(识别)上的召回率为58.7%。专业检测器高出10.5个百分点,表明MLLMs在原始感知方面仍落后于专用计算机视觉系统。然而,即使有完美的感知(通过将Grounding DINO的预测作为输入提供给MLLM进行规划),规划EM仅从21.0%提高到22.1%。这种微小的改进表明,在物理工具使用中,对功能的推理比单纯的感知重要得多。

图7:MLLM与专业检测器的感知能力比较。

### 5.3 人类表现上限

为了建立人类表现的上限,我们进行了一项小规模用户研究,涉及三位具有不同机械背景的标注者(一位专业机械师、一位业余爱好者和一位新手)。每位标注者评估了PhysTool-Bench的一个子集(150个查询),并在熟悉度调查中对每个查询进行评分,根据他们对所用工具的先前接触程度划分为“高”、“中”、“低”熟悉度。

结果如表8所示。

表8:物理工具使用中的人类表现上限。

| 熟悉度 | 人类 EM | 人类 F1 |
|--------|---------|---------|
| 高 | 74.8% | 88.2% |
| 中 | 45.3% | 62.7% |
| 低 | 21.6% | 38.5% |
| 全部 | 38.2% | 56.4% |

在“高”熟悉度任务上,人类EM达到74.8%;即使在不熟悉的任务上,人类仍然达到21.6%的EM,与当前最好的MLLM(21.0%)相当。这表明,在一般意义上,所评估的任务对人类来说是完全可行的;MLLMs未能达到,是因为它们缺乏领域特定的工具知识。

### 5.4 已知局限与未来工作

虽然PhysTool-Bench提供了对物理工具使用的全面评估,但存在一些局限。首先,我们的评价标准侧重于离散的工具选择和顺序,而不是连续的操作参数(例如,扭矩设置、切削速度)。扩张模型以包括这些细微差别将是重要的下一步。其次,我们的场景主要是静态的;未来的工作可能包括时间方面(例如,任务过程中工具状态的变化)。最后,我们的基准目前限于八个领域;扩展到包括科学实验室、烹饪和环境修复等领域将提供更广泛的覆盖面。

我们的发现对未来研究有直接影响。开发领域特定的合成数据生成管道,尤其是在含有大量混淆物的杂乱场景中,对于让模型接触到现实世界的复杂性至关重要。此外,在强化学习框架中将物理常识显式建模为一个单独的推理模块,可以弥合当前MLLMs的感知能力与更复杂的计划执行之间的差距。最后,整合对工具特定参数(例如,扭矩设置、压力水平)的预测,以及结合视觉和触觉反馈,将进一步增强物理工具使用的现实感。

### 5.5 结论

我们提出了PhysTool-Bench,这是首个专门用于评估MLLMs在物理工具使用方面能力的基准。通过评估13个模型,我们表明,虽然MLLMs

相似文章

@omarsar0: 关于工具使用智能体的有趣可解释性论文。作者探测隐藏状态,发现模型经常识别到应调用工具,但…

X AI KOLs Following

本文提出了一个模型自适应的工具必要性定义,并发现 LLM 内部识别需要工具与实际调用工具之间存在 26% 到 54% 的不匹配,集中体现在认知到行动的转换阶段。它揭示了一个“知行差距”(knowing-doing gap),即模型通常知道应该调用工具,但由于后期层几何结构将信号旋转至几乎与行动正交,导致调用失败。

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。