标签
RoboSemanticBench 是一个基准测试,用于诊断视觉-语言-动作模型在动作预测中的语义基础,揭示机器人虽然能够抓取物体,但无法根据指令语义选择语义上正确的目标。
介绍了CAFE,一种通过反事实属性操作来评估可提示分割模型是否真正理解概念的基准,揭示了精确的掩码预测并不能保证忠实的语义基础。