physical-properties

标签

Cards List
#physical-properties

AFFORDANCE20Q:基于物理属性的可操作推理评估

arXiv cs.AI · 2026-06-15 缓存

Affordance20Q 是一个基准测试,采用20个问题格式,评估大型语言模型在隐藏物体身份的情况下,从物理属性推断物体可操作性的能力。实验表明,大型语言模型与人类之间存在约20个百分点的差距,而提出的KARI流水线可将开源大型语言模型的性能提升高达15.2个百分点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈