AFFORDANCE20Q：基于物理属性的可操作推理评估

arXiv cs.AI 2026/06/15 04:00 论文

affordance-reasoning physical-properties llm-evaluation benchmark 20-questions knowledge-bases open-source

摘要

Affordance20Q 是一个基准测试，采用20个问题格式，评估大型语言模型在隐藏物体身份的情况下，从物理属性推断物体可操作性的能力。实验表明，大型语言模型与人类之间存在约20个百分点的差距，而提出的KARI流水线可将开源大型语言模型的性能提升高达15.2个百分点。

arXiv:2606.14240v1 公告类型：新摘要：可操作性推理是指从物体的物理属性（例如形状和材料）推断其动作可能性的过程，这对人类的物理理解至关重要，并且对大型语言模型（LLM）也越来越关键。然而，现有的可操作性基准大多在评估设置中暴露了明确的物体身份，使得模型可以依赖记忆的物体-可操作性映射，而非基于物理属性进行推理。为解决这一问题，我们提出了Affordance20Q，这是一个新颖的可操作性推理基准，采用20个问题游戏的形式，同时不暴露物体身份。在每个游戏中，模型通过询问关于物体物理属性的是/否问题，从候选集合中识别隐藏物体的可操作性。Affordance20Q包含1,009个游戏，涉及454个物体和59种可操作性，所有数据均经过人工筛选、精炼和注释。我们使用15个最先进的大型语言模型进行了全面实验，发现与人类表现相比存在约20个百分点的显著差距。基于KL的信息增益（IG）分析进一步表明，模型在游戏过程中未能提出有区分度的问题。为缩小差距，我们开发了基于知识库锚点的规则归纳（KARI），这是一种基于大型语言模型的流水线，可生成基于知识库证据的可操作性规则。KARI将开源大型语言模型的性能提升了高达15.2个百分点，但知识库覆盖范围有限阻碍了进一步提升。我们将在https://github.com/1171-jpg/Affordance20Q.git发布所有代码和数据。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:11

# Affordance20Q：从物理属性评估可供性推理 来源：https://arxiv.org/html/2606.14240 Yifan Jiang¹, Meige Yang², Zitong Li², Jay Pujara¹ ¹南加州大学信息科学研究所 ²南加州大学 \{yifjia,jpujara\}@isi\.edu, maggieya@usc\.edu, alex\.zitong\.li@gmail\.com ###### 摘要 可供性推理——从物体的物理属性（如形状和材质）推断其动作可能性——是人类物理理解的基础，并且对大型语言模型（LLMs）日益关键。然而，现有的可供性基准大多在评估设置中明确暴露物体身份，使得模型能够依赖记忆的物体-可供性映射，而非基于物理属性进行推理。为弥补这一空白，我们提出 **Affordance20Q**，一个新颖的可供性推理基准，采用二十问游戏形式，不暴露物体身份。在每局游戏中，模型通过询问关于物理属性的是/否问题，从候选集中识别隐藏物体的可供性。**Affordance20Q** 包含 454 个物体和 59 种可供性上的 1,009 局游戏，全部经过人工筛选、精炼和标注。我们对 15 个最先进的 LLM 进行了全面实验，发现与人类表现存在显著差距（约 20 个百分点）。基于 KL 散度的信息增益（IG）分析进一步表明，随着游戏进行，模型未能提出具有区分性的问题。为缩小差距，我们开发了 KB 锚定规则归纳（KARI），这是一种基于 LLM 的流水线，用于生成基于知识库（KB）证据的可供性规则。KARI 将开源 LLM 的性能提升最多 15.2 个百分点，而 KB 的有限覆盖阻碍了进一步增益。我们在 https://github.com/1171-jpg/Affordance20Q.git 发布所有代码和数据。 Affordance20Q：从物理属性评估可供性推理 Yifan Jiang¹, Meige Yang², Zitong Li², Jay Pujara¹ ¹南加州大学信息科学研究所 ²南加州大学 \{yifjia,jpujara\}@isi\.edu, maggieya@usc\.edu, alex\.zitong\.li@gmail\.com 参见图注 图 1：现有可供性基准（上方）与 **Affordance20Q**（下方）的对比。 ## 1 引言 当人类遇到一个物体时，他们会直接从其物理属性（包括形状、材质和结构）推理该物体支持哪些动作。Gibson (1977) 将这种能力形式化为 **可供性推理**，并将其置于物理理解的核心。可供性推理作用于每个物体都展现的物理属性，因此支持广泛的物理交互，从流畅使用熟悉的日常物品 (Norman, 2013) 到稳健处理新颖物品或创造性地将熟悉物品用于非典型用途 (Duncker & Lees, 1945; German & Defeyter, 2000)。这种推理对于 LLM 日益关键，因为最近的进展导致它们融入日常人类活动 (Yang et al., 2025; Singh et al., 2025)，尤其是对于旨在物理应用且不断增长的 LLM 驱动具身系统 (Driess et al., 2023; Zhang et al., 2025)。LLM 不仅需要理解日常工具的使用 (Wang et al., 2023b, 2026b)，还需要将这种能力推广到训练经验之外的陌生物体或场景 (Tian et al., 2024; Jiang et al., 2023b)。例如，在具身机器人操作中，模型不仅应认识到刀子提供切割，还应推理任何具有锋利硬边的物体都提供相同的动作 (Tang et al., 2025; Xu et al., 2022)。认识到其重要性，最近的研究引入了多种可供性推理基准，涵盖多种模态 (Wang et al., 2026b; Yu et al., 2025) 和任务类型 (Qasemi et al., 2022; Tian et al., 2024)。然而，所有设置都通过给出类别或物体名称使物体身份明确（图 1），从而混淆了回忆物体-可供性映射与基于物理属性进行推理。模型知道物体是刀子，就可以通过回忆存储的映射来回答“它提供切割” (Persiani & Hellström, 2019)，而无需参考其坚硬、锋利的物理属性。这种混淆导致现有基准无法准确衡量可供性推理能力。基于回忆的模型可以在训练分布内通过这些基准，但在真实世界物理交互中常见的新颖物体和非常规用途上会失败 (Gjerde et al., 2025; Wu et al., 2024)。为将推理与回忆分离，我们提出 **Affordance20Q**，一个以二十问（20Q）游戏形式 (Bruner et al., 1966) 构建的基准，其中模型在不了解物体身份的情况下识别物体的可供性。如图 1 所示，在每局游戏中，给定候选可供性，模型通过多轮关于隐藏物体物理属性（如材质和形状）的是/否问题来缩小候选范围。排除物体身份要求模型通过从物理证据推理，而非回忆存储的物体-可供性映射，来识别正确的可供性 (Hutson et al., 2025)。为构建 **Affordance20Q**，我们使用三阶段流水线：首先从现有语料库 (Jiang & Riloff, 2021) 和常识知识库 (Ilievski et al., 2021) 收集物理物体和可供性，然后通过 LLM 生成进行丰富，最后人工筛选、精炼和标注（物体，可供性）对。最终，**Affordance20Q** 包含 454 个物体和 59 种可供性上的 1,009 局游戏。 利用 **Affordance20Q**，我们评估了 15 个不同规模和架构的最先进 LLM，发现与人类表现存在显著差距（约 20 个百分点），最强模型仅达到 45.9%。为进一步诊断差距，我们用基于 KL 的信息增益（IG）指标追踪每局游戏，发现模型反复提出低 IG 的问题，未能跨轮次缩小候选集。为缩小这一差距，我们开发了 KB 锚定规则归纳（KARI），一个使用知识库来启发 LLM 规则生成并通过事后验证重新锚定生成规则的流水线，确保生成的规则始终锚定在物理常识而非自由形式的 LLM 推测中。KARI 将开源 LLM 的性能提升最多 15.2 个百分点，部分缩小了差距，而剩余差距可追溯到当前常识知识库的覆盖限制。我们将贡献总结如下：1) 我们提出 **Affordance20Q**，一个二十问基准，测试基于物理属性而非物体身份回忆的可供性推理，包含 454 个物体和 59 种可供性上的 1,009 局游戏。2) 我们对 15 个最先进 LLM 进行了全面实验，揭示了与人类表现的显著差距，信息增益分析表明模型在游戏进行中未能提出具有区分性的问题。3) 我们开发了 KB 锚定规则归纳（KARI），一个结合 LLM 和知识库的流水线，将开源 LLM 提升最多 15.2 个百分点。我们发布所有代码和数据。 ## 2 相关工作 #### 可供性推理基准 可供性推理的重要性 (Gibson, 1977) 推动了跨多种输入格式和模态的广泛基准。在视觉领域，早期工作侧重于将部分/物体级可供性锚定在 3D 形状和部分几何 (Deng et al., 2021; Xu et al., 2022) 或 2D 图像输入 (Nguyen et al., 2017; Luo et al., 2022; Li et al., 2023) 中。最近的工作转向评估模型在图像输入和文本指令下的可供性推理，涵盖不同的任务设置 (Wang et al., 2026b; Yu et al., 2025; Wang et al., 2026a; Zhu et al., 2025; Wan et al., 2025)。在文本领域，并行工作将可供性推理格式化为问答任务，并提供了物体名称或描述作为上下文 (Bisk et al., 2020; Aroca-Ouellette et al., 2021; Wang et al., 2023b; Adak et al., 2024; Gjerde et al., 2025)。尽管少数工作 (Li et al., 2023; Gjerde et al., 2025) 将可供性推理格式化为基于物理属性，但没有一个移除物体身份以防止回忆物体-可供性映射。相比之下，**Affordance20Q** 是第一个从输入中排除物体身份，并要求模型通过多轮提问从物理属性推断可供性的基准，从而将推理与回忆分离。 #### 二十问游戏与主动提问 二十问（20Q）游戏最早用于认知科学研究信息寻求行为 (Bruner et al., 1966; Ruggeri et al., 2016)。在每局游戏中，提问者旨在通过一系列是/否问题在固定轮次内识别隐藏目标。随着主动提问能力在真实世界人机交互场景（例如，任务消歧 (Kobalczyk et al., 2025)，医学诊断 (Li et al., 2024)）中变得日益重要，20Q 游戏最近被广泛用于分析 LLM 的多轮推理和信息寻求能力 (Bertolazzi et al., 2023; Hutson et al., 2025; Zhang et al., 2024; Mazzaccara et al., 2024)。然而，所有当前工作都将物体或实体作为候选空间。例如，Zhang et al. (2024) 和 Hutson et al. (2025) 要求 LLM 战略性提问以识别隐藏目标物体。**Affordance20Q** 是第一个将 20Q 游戏用于可供性推理的，这也符合 Gibson 的可供性主动感知观点 (Gibson, 1977)。我们进一步引入一个新颖的基于 KL 的信息增益指标，以评估模型跨轮次的问题有效性。 ## 3 **Affordance20Q** 构建 在本节中，我们首先形式化 **Affordance20Q** 的游戏设置（§3.1），然后描述我们的三阶段收集流水线设计（§3.2），最后给出数据统计（§3.3）。 ### 3.1 游戏形式化 遵循最近用于 LLM 评估的 20Q 改编版 (Hutson et al., 2025; Zhang et al., 2024)，**Affordance20Q** 的每局游戏由一个隐藏目标物体 \(o^*\) 和一个包含 8 种可供性的候选集 \(\mathcal{A} = \{a^*, a_1, \dots, a_7\}\) 定义，其中目标 \(a^*\) 是 \(o^*\) 所具有的一种可供性，其余 7 个为干扰项。三个智能体参与：**提问者**，仅观察 \(\mathcal{A}\) 并提出关于 \(o^*\) 物理属性的是/否问题 \(q\) 以识别 \(a^*\)；**检查者**，确保每个问题格式正确且锚定在某个物理属性维度（如材质、形状），防止信息泄露；以及**预言者**，可访问 \(o^*\) 并提供对物理属性问题的回答 \(r\)。在每个轮次 \(t\)，提问者基于对话历史 \(H_{t-1} = \{(q_1, r_1), \dots, (q_{t-1}, r_{t-1})\}\) 产生问题 \(q_t\)，检查者验证 \(q_t\)，预言者返回回答 \(r_t\)。如果提问者在 \(T=20\) 轮预算内正确识别 \(a^*\)，则游戏成功。如果提问者做出错误猜测或用尽轮次预算，则游戏失败。 ### 3.2 三阶段收集流水线 与之前将任务框架化为识别隐藏物体的 20Q 设置 (Hutson et al., 2025; Zhang et al., 2024) 不同，为评估可供性推理，**Affordance20Q** 将其框架化为识别隐藏物体的可供性，其中隐藏物体保持不变，但提问者需基于其物理属性进行推理。为确保此推理链有效，**Affordance20Q** 排除了任何其可供性不能仅从物理属性维度推导的物体-可供性对（例如，微波炉的加热可供性来自其磁控管）。鉴于完全人工策划的成本高昂，我们设计了一个半自动的三阶段收集流水线，以可扩展的方式构建 **Affordance20Q**。 **阶段 1：初始物体和可供性收集。** 我们的初始物体池是 Jiang 和 Riloff (2021) 中介绍的人类制造物理物体列表。我们通过查询常识知识图谱（CSKG）(Ilievski et al., 2021) 中描述物体能力和用途的关系（例如，CapableOf，UsedFor）来构建初始可供性池。CSKG 将七个常识知识库（例如，ConceptNet (Speer et al., 2017)，WordNet (Fellbaum, 2010)）整合到

AFFORDANCE20Q：基于物理属性的可操作推理评估

相似文章

物体能提供什么，而非它们是什么：用于可供性推理的功能潜在空间

AFUN：迈向功能性理解的可供性基础模型

自适应潜在智能体推理

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

DAR：基于智能体框架的道义推理

提交意见反馈