AFFORDANCE20Q:基于物理属性的可操作推理评估

arXiv cs.AI 论文

摘要

Affordance20Q 是一个基准测试,采用20个问题格式,评估大型语言模型在隐藏物体身份的情况下,从物理属性推断物体可操作性的能力。实验表明,大型语言模型与人类之间存在约20个百分点的差距,而提出的KARI流水线可将开源大型语言模型的性能提升高达15.2个百分点。

arXiv:2606.14240v1 公告类型:新 摘要:可操作性推理是指从物体的物理属性(例如形状和材料)推断其动作可能性的过程,这对人类的物理理解至关重要,并且对大型语言模型(LLM)也越来越关键。然而,现有的可操作性基准大多在评估设置中暴露了明确的物体身份,使得模型可以依赖记忆的物体-可操作性映射,而非基于物理属性进行推理。为解决这一问题,我们提出了Affordance20Q,这是一个新颖的可操作性推理基准,采用20个问题游戏的形式,同时不暴露物体身份。在每个游戏中,模型通过询问关于物体物理属性的是/否问题,从候选集合中识别隐藏物体的可操作性。Affordance20Q包含1,009个游戏,涉及454个物体和59种可操作性,所有数据均经过人工筛选、精炼和注释。我们使用15个最先进的大型语言模型进行了全面实验,发现与人类表现相比存在约20个百分点的显著差距。基于KL的信息增益(IG)分析进一步表明,模型在游戏过程中未能提出有区分度的问题。为缩小差距,我们开发了基于知识库锚点的规则归纳(KARI),这是一种基于大型语言模型的流水线,可生成基于知识库证据的可操作性规则。KARI将开源大型语言模型的性能提升了高达15.2个百分点,但知识库覆盖范围有限阻碍了进一步提升。我们将在https://github.com/1171-jpg/Affordance20Q.git发布所有代码和数据。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:11

# Affordance20Q:从物理属性评估可供性推理 来源:https://arxiv.org/html/2606.14240 Yifan Jiang¹, Meige Yang², Zitong Li², Jay Pujara¹ ¹南加州大学信息科学研究所 ²南加州大学 \{yifjia,jpujara\}@isi\.edu, maggieya@usc\.edu, alex\.zitong\.li@gmail\.com ###### 摘要 可供性推理——从物体的物理属性(如形状和材质)推断其动作可能性——是人类物理理解的基础,并且对大型语言模型(LLMs)日益关键。然而,现有的可供性基准大多在评估设置中明确暴露物体身份,使得模型能够依赖记忆的物体-可供性映射,而非基于物理属性进行推理。为弥补这一空白,我们提出 **Affordance20Q**,一个新颖的可供性推理基准,采用二十问游戏形式,不暴露物体身份。在每局游戏中,模型通过询问关于物理属性的是/否问题,从候选集中识别隐藏物体的可供性。**Affordance20Q** 包含 454 个物体和 59 种可供性上的 1,009 局游戏,全部经过人工筛选、精炼和标注。我们对 15 个最先进的 LLM 进行了全面实验,发现与人类表现存在显著差距(约 20 个百分点)。基于 KL 散度的信息增益(IG)分析进一步表明,随着游戏进行,模型未能提出具有区分性的问题。为缩小差距,我们开发了 KB 锚定规则归纳(KARI),这是一种基于 LLM 的流水线,用于生成基于知识库(KB)证据的可供性规则。KARI 将开源 LLM 的性能提升最多 15.2 个百分点,而 KB 的有限覆盖阻碍了进一步增益。我们在 https://github.com/1171-jpg/Affordance20Q.git 发布所有代码和数据。 Affordance20Q:从物理属性评估可供性推理 Yifan Jiang¹, Meige Yang², Zitong Li², Jay Pujara¹ ¹南加州大学信息科学研究所 ²南加州大学 \{yifjia,jpujara\}@isi\.edu, maggieya@usc\.edu, alex\.zitong\.li@gmail\.com 参见图注 图 1:现有可供性基准(上方)与 **Affordance20Q**(下方)的对比。 ## 1 引言 当人类遇到一个物体时,他们会直接从其物理属性(包括形状、材质和结构)推理该物体支持哪些动作。Gibson (1977) 将这种能力形式化为 **可供性推理**,并将其置于物理理解的核心。可供性推理作用于每个物体都展现的物理属性,因此支持广泛的物理交互,从流畅使用熟悉的日常物品 (Norman, 2013) 到稳健处理新颖物品或创造性地将熟悉物品用于非典型用途 (Duncker & Lees, 1945; German & Defeyter, 2000)。这种推理对于 LLM 日益关键,因为最近的进展导致它们融入日常人类活动 (Yang et al., 2025; Singh et al., 2025),尤其是对于旨在物理应用且不断增长的 LLM 驱动具身系统 (Driess et al., 2023; Zhang et al., 2025)。LLM 不仅需要理解日常工具的使用 (Wang et al., 2023b, 2026b),还需要将这种能力推广到训练经验之外的陌生物体或场景 (Tian et al., 2024; Jiang et al., 2023b)。例如,在具身机器人操作中,模型不仅应认识到刀子提供切割,还应推理任何具有锋利硬边的物体都提供相同的动作 (Tang et al., 2025; Xu et al., 2022)。认识到其重要性,最近的研究引入了多种可供性推理基准,涵盖多种模态 (Wang et al., 2026b; Yu et al., 2025) 和任务类型 (Qasemi et al., 2022; Tian et al., 2024)。然而,所有设置都通过给出类别或物体名称使物体身份明确(图 1),从而混淆了回忆物体-可供性映射与基于物理属性进行推理。模型知道物体是刀子,就可以通过回忆存储的映射来回答“它提供切割” (Persiani & Hellström, 2019),而无需参考其坚硬、锋利的物理属性。这种混淆导致现有基准无法准确衡量可供性推理能力。基于回忆的模型可以在训练分布内通过这些基准,但在真实世界物理交互中常见的新颖物体和非常规用途上会失败 (Gjerde et al., 2025; Wu et al., 2024)。为将推理与回忆分离,我们提出 **Affordance20Q**,一个以二十问(20Q)游戏形式 (Bruner et al., 1966) 构建的基准,其中模型在不了解物体身份的情况下识别物体的可供性。如图 1 所示,在每局游戏中,给定候选可供性,模型通过多轮关于隐藏物体物理属性(如材质和形状)的是/否问题来缩小候选范围。排除物体身份要求模型通过从物理证据推理,而非回忆存储的物体-可供性映射,来识别正确的可供性 (Hutson et al., 2025)。为构建 **Affordance20Q**,我们使用三阶段流水线:首先从现有语料库 (Jiang & Riloff, 2021) 和常识知识库 (Ilievski et al., 2021) 收集物理物体和可供性,然后通过 LLM 生成进行丰富,最后人工筛选、精炼和标注(物体,可供性)对。最终,**Affordance20Q** 包含 454 个物体和 59 种可供性上的 1,009 局游戏。 利用 **Affordance20Q**,我们评估了 15 个不同规模和架构的最先进 LLM,发现与人类表现存在显著差距(约 20 个百分点),最强模型仅达到 45.9%。为进一步诊断差距,我们用基于 KL 的信息增益(IG)指标追踪每局游戏,发现模型反复提出低 IG 的问题,未能跨轮次缩小候选集。为缩小这一差距,我们开发了 KB 锚定规则归纳(KARI),一个使用知识库来启发 LLM 规则生成并通过事后验证重新锚定生成规则的流水线,确保生成的规则始终锚定在物理常识而非自由形式的 LLM 推测中。KARI 将开源 LLM 的性能提升最多 15.2 个百分点,部分缩小了差距,而剩余差距可追溯到当前常识知识库的覆盖限制。我们将贡献总结如下:1) 我们提出 **Affordance20Q**,一个二十问基准,测试基于物理属性而非物体身份回忆的可供性推理,包含 454 个物体和 59 种可供性上的 1,009 局游戏。2) 我们对 15 个最先进 LLM 进行了全面实验,揭示了与人类表现的显著差距,信息增益分析表明模型在游戏进行中未能提出具有区分性的问题。3) 我们开发了 KB 锚定规则归纳(KARI),一个结合 LLM 和知识库的流水线,将开源 LLM 提升最多 15.2 个百分点。我们发布所有代码和数据。 ## 2 相关工作 #### 可供性推理基准 可供性推理的重要性 (Gibson, 1977) 推动了跨多种输入格式和模态的广泛基准。在视觉领域,早期工作侧重于将部分/物体级可供性锚定在 3D 形状和部分几何 (Deng et al., 2021; Xu et al., 2022) 或 2D 图像输入 (Nguyen et al., 2017; Luo et al., 2022; Li et al., 2023) 中。最近的工作转向评估模型在图像输入和文本指令下的可供性推理,涵盖不同的任务设置 (Wang et al., 2026b; Yu et al., 2025; Wang et al., 2026a; Zhu et al., 2025; Wan et al., 2025)。在文本领域,并行工作将可供性推理格式化为问答任务,并提供了物体名称或描述作为上下文 (Bisk et al., 2020; Aroca-Ouellette et al., 2021; Wang et al., 2023b; Adak et al., 2024; Gjerde et al., 2025)。尽管少数工作 (Li et al., 2023; Gjerde et al., 2025) 将可供性推理格式化为基于物理属性,但没有一个移除物体身份以防止回忆物体-可供性映射。相比之下,**Affordance20Q** 是第一个从输入中排除物体身份,并要求模型通过多轮提问从物理属性推断可供性的基准,从而将推理与回忆分离。 #### 二十问游戏与主动提问 二十问(20Q)游戏最早用于认知科学研究信息寻求行为 (Bruner et al., 1966; Ruggeri et al., 2016)。在每局游戏中,提问者旨在通过一系列是/否问题在固定轮次内识别隐藏目标。随着主动提问能力在真实世界人机交互场景(例如,任务消歧 (Kobalczyk et al., 2025),医学诊断 (Li et al., 2024))中变得日益重要,20Q 游戏最近被广泛用于分析 LLM 的多轮推理和信息寻求能力 (Bertolazzi et al., 2023; Hutson et al., 2025; Zhang et al., 2024; Mazzaccara et al., 2024)。然而,所有当前工作都将物体或实体作为候选空间。例如,Zhang et al. (2024) 和 Hutson et al. (2025) 要求 LLM 战略性提问以识别隐藏目标物体。**Affordance20Q** 是第一个将 20Q 游戏用于可供性推理的,这也符合 Gibson 的可供性主动感知观点 (Gibson, 1977)。我们进一步引入一个新颖的基于 KL 的信息增益指标,以评估模型跨轮次的问题有效性。 ## 3 **Affordance20Q** 构建 在本节中,我们首先形式化 **Affordance20Q** 的游戏设置(§3.1),然后描述我们的三阶段收集流水线设计(§3.2),最后给出数据统计(§3.3)。 ### 3.1 游戏形式化 遵循最近用于 LLM 评估的 20Q 改编版 (Hutson et al., 2025; Zhang et al., 2024),**Affordance20Q** 的每局游戏由一个隐藏目标物体 \(o^*\) 和一个包含 8 种可供性的候选集 \(\mathcal{A} = \{a^*, a_1, \dots, a_7\}\) 定义,其中目标 \(a^*\) 是 \(o^*\) 所具有的一种可供性,其余 7 个为干扰项。三个智能体参与:**提问者**,仅观察 \(\mathcal{A}\) 并提出关于 \(o^*\) 物理属性的是/否问题 \(q\) 以识别 \(a^*\);**检查者**,确保每个问题格式正确且锚定在某个物理属性维度(如材质、形状),防止信息泄露;以及**预言者**,可访问 \(o^*\) 并提供对物理属性问题的回答 \(r\)。在每个轮次 \(t\),提问者基于对话历史 \(H_{t-1} = \{(q_1, r_1), \dots, (q_{t-1}, r_{t-1})\}\) 产生问题 \(q_t\),检查者验证 \(q_t\),预言者返回回答 \(r_t\)。如果提问者在 \(T=20\) 轮预算内正确识别 \(a^*\),则游戏成功。如果提问者做出错误猜测或用尽轮次预算,则游戏失败。 ### 3.2 三阶段收集流水线 与之前将任务框架化为识别隐藏物体的 20Q 设置 (Hutson et al., 2025; Zhang et al., 2024) 不同,为评估可供性推理,**Affordance20Q** 将其框架化为识别隐藏物体的可供性,其中隐藏物体保持不变,但提问者需基于其物理属性进行推理。为确保此推理链有效,**Affordance20Q** 排除了任何其可供性不能仅从物理属性维度推导的物体-可供性对(例如,微波炉的加热可供性来自其磁控管)。鉴于完全人工策划的成本高昂,我们设计了一个半自动的三阶段收集流水线,以可扩展的方式构建 **Affordance20Q**。 **阶段 1:初始物体和可供性收集。** 我们的初始物体池是 Jiang 和 Riloff (2021) 中介绍的人类制造物理物体列表。我们通过查询常识知识图谱(CSKG)(Ilievski et al., 2021) 中描述物体能力和用途的关系(例如,CapableOf,UsedFor)来构建初始可供性池。CSKG 将七个常识知识库(例如,ConceptNet (Speer et al., 2017),WordNet (Fellbaum, 2010))整合到

相似文章

物体能提供什么,而非它们是什么:用于可供性推理的功能潜在空间

arXiv cs.LG

本文介绍了A4D,一个将视觉观察映射到围绕可供性(例如“可移动”)构建的共享潜在空间中的框架,用于机器人规划。它在现有可供性上实现了94%的推理准确率,比现有最优方法高出15%,并且实现了100倍的推理速度提升,对未见过的物体功能具有更强的泛化能力。

AFUN:迈向功能性理解的可供性基础模型

Hugging Face Daily Papers

AFUN 提出了一种可供性基础模型,该模型从 RGB-D 观测和语言描述中预测功能掩码和 3D 运动曲线,从而能够在多种环境中实现泛化的机器人操作。该模型在多个基准测试上优于基线方法,并且无需微调即可部署到实际任务中。

自适应潜在智能体推理

arXiv cs.CL

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。

DAR:基于智能体框架的道义推理

Hugging Face Daily Papers

本文介绍了DAR(Deontic Agentic Reasoning),一个智能体框架,使LLM能够交互式地查询法律法规和政策,用于法律/监管推理任务。在DeonticBench上评估的结果表明,智能体引导可以提升前沿模型,但可能会导致较弱模型在数值任务上表现下降,同时消耗更多令牌。