physical-tool-use

#physical-tool-use

超越API：探究MLLMs在物理工具使用中的极限

arXiv cs.CL ↗ · 15小时前缓存

本文介绍了PhysTool-Bench，一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现，即使是最佳模型也只能识别58.7%的工具，并仅完成21.0%的端到端查询，揭示了感知和功能常识两个层面的缺陷。

0 人收藏 0 人点赞