基于大语言模型的零样本目标识别

arXiv cs.AI 论文

摘要

本文首次系统性地对前沿大语言模型在经典PDDL规划基准上的零样本目标识别能力进行评估,发现部分模型能随证据积累而扩展性能,而另一些模型则始终依赖世界知识先验,不受观测累积影响。

arXiv:2605.15333v1 公告类型: 新 摘要: 大语言模型近期在知名规划领域已接近与经典规划器持平,然而这种能力依赖于世界知识挖掘而非真正的符号推理。目标识别是一种互补性的溯因任务,在结构上更适合大语言模型的优势:它旨在评估与世界知识的一致性,而非生成新的动作序列。本文首次系统性地对前沿大语言模型在关键经典PDDL基准上的零样本目标识别能力进行评估。结果表明,大语言模型在目标识别上的能力并不均衡:部分模型能随证据积累而扩展性能,并在完整观测下接近基于地标的准确率,而另一些模型则始终锚定于世界知识先验,无论证据如何积累。对模型推理轨迹的定性分析显示,这种差异源于证据整合方式的根本不同,而非领域熟悉度。这些发现将目标识别定位为评估大语言模型基础规划知识的原则性基准。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:32

# 基于大规模语言模型的零样本目标识别 来源:https://arxiv.org/html/2605.15333

Kin Max Piamolini Gusmão  
PUCRS 阿雷格里港,巴西  
[email protected]

&Nathan Gavenski  
伦敦国王学院 伦敦,英格兰  
[email protected]

Nir Oren  
阿伯丁大学 阿伯丁,苏格兰  
[email protected]

&Felipe Meneguzzi  
阿伯丁大学 / PUCRS 阿伯丁,苏格兰  
[email protected]

###### 摘要

大规模语言模型近期在众所周知的规划领域已达到与经典规划器几乎相当的水平,然而这种能力依赖于对世界知识的利用,而非真正的符号推理。目标识别是一种互补的溯因任务,其结构更适合利用大规模语言模型的优势:它评估的是与世界知识的一致性,而非生成新的动作序列。本文对前沿大规模语言模型作为目标识别器在关键经典PDDL基准上进行了首次系统性零样本评估。我们的结果表明,大规模语言模型在目标识别上的能力并不均衡:部分模型会随证据增多而提升性能,在完全可观测时接近基于标志的准确率;而其他模型无论积累多少证据,都始终固守于世界知识先验。对模型推理过程的定性分析揭示,这种差异反映了证据整合方式上的根本性不同,而非领域熟悉程度所致。这些发现将目标识别定位为评估大规模语言模型基础规划知识的一个原则性基准。

## 1 引言

大规模语言模型最近已被广泛应用于各种需要推理的任务中,成为基础组件。最近的基准测试表明,包括推理模型在内的这些模型在众所周知的规划领域已接近经典规划器的水平[21, 3]。然而,这种能力建立在脆弱的基础之上,因为当领域和对象名称被混淆时,性能会急剧下降,这表明大规模语言模型利用的是世界知识,而非进行真正的符号推理[20, 19]。

目标识别和规划识别是相关但本质上不同的任务[13, 14, 8]。给定一组候选目标和观测到的智能体动作的部分序列,任务是推断智能体追求的是哪个目标,或者说它为实现该目标使用的计划是什么。与规划不同,目标识别是溯因性的:识别器不构造有效的动作序列,而是询问哪个假说最能解释到目前为止的证据。将部分证据与固定假说集进行评估,这自然符合大规模语言模型利用其训练中编码的世界知识的方式,使得目标识别成为探测这些基础规划知识的一个原则性基准。一个仅依赖世界知识先验的模型,无论积累多少证据,都会产生稳定的预测,从而揭示由领域熟悉度设定的下限;而一个随观测数据提升性能的模型,则展现了超越该下限的能力。

本文研究大规模语言模型在已知规划领域的能力是否能迁移到目标识别。我们对前沿大规模语言模型作为目标识别器在经典PDDL基准上进行了首次系统性零样本评估,并将其与Pereira等人[12]基于标志的方法进行比较。我们选取了四个具有对比特征的领域(第4节)进行评估:积木世界、校园、驾驶员日志和码头工人机器人。我们的主要贡献如下:

*   (i) 对前沿大规模语言模型在经典PDDL目标识别基准上进行了首次系统性零样本评估,并与基于标志的目标识别方法[12]进行对比。
*   (ii) 识别出三种性质上不同的大规模语言模型行为模式:GPT-4o在低观测数时达到有竞争力的召回率,但随证据增多从未改善;GPT-OSS和GPT-5.4会随观测数提升性能,在完全可观测时接近基于标志的准确率;而Qwen 3.5在除最简单领域外的所有场景中几乎完全失败。
*   (iii) 证据表明,高分散度是稀疏观测下大规模语言模型的共同失败模式,并且积累证据并不能解决所有模型的问题。
*   (iv) 我们的结果为Valmeekam等人[20, 19]关于神秘领域的研究发现提供了有价值的延伸。即使在名称标准的熟悉领域,目标识别显示前沿大规模语言模型的性能会随着计划和假说空间增大而恶化,这表明瓶颈不在于大规模语言模型是否了解该领域,而在于它们能否将不断增长的观测序列整合成连贯的预测。
*   (v) 对模型推理过程进行了定性分析,识别出共同的失败模式(编造内容、稀疏观测下的过度自信、位置偏差和高可观测性下的错误),并提出了具体的干预措施以指导基于大规模语言模型的目标识别器的开发。

## 2 背景

目标识别是从观测智能体的部分动作序列中推断其目标的问题。该任务与规划密切相关,规划是确定如何从已知的初始状态 \(\mathcal{I}\) 达到给定目标 \(G\)。然而,目标识别不是模拟从 \(\mathcal{I}\) 到 \(G\) 的路径,而是一个逆问题,即从观测到的动作中推断被观测智能体的真实目标 \(G^*\)。[2009, 2010] 用经典规划的术语形式化了这个问题,Mirsky 等人[8] 对其广度进行了综述。

###### 定义 1 (目标识别问题)
一个目标识别问题是一个元组 \(\mathcal{P}_{GR} = \langle \Xi, \mathcal{I}, \mathcal{G}, \mathcal{O} \rangle\),其中 \(\Xi\) 是一个规划领域,\(\mathcal{I}\) 是初始状态,\(\mathcal{G} = \{G_1, \ldots, G_n\}\) 是候选目标假说的有限集合,\(\mathcal{O} = \langle a_1, \ldots, a_k \rangle\) 是观测到的有序动作序列。真实目标 \(G^* \in \mathcal{G}\) 未知。给定一个目标识别问题,任务是在给定 \(\mathcal{O}\) 的情况下,返回对 \(\mathcal{G}\) 的一个排名或概率分布,将 \(G^*\) 识别为最可能的候选目标。在实践中,许多方法返回对所有 \(G \in \mathcal{G}\) 的概率分布,而非严格的排序,并且允许存在并列情况。我们注意到,目标识别中的部分可观测性概念与部分可观测马尔可夫决策过程[7]不同。识别器从不直接观测世界状态;它只接收智能体执行的动作的有序子集,必须从那个不完整的轨迹中推断出目标。

###### 定义 2 (观测)
令 \(\pi = \langle a_1, \ldots, a_m \rangle\) 为被观测智能体执行的完整计划。一个观测序列是一个元组 \(\mathcal{O} = \langle a_{i_1}, \ldots, a_{i_k} \rangle\),其中 \(1 \le i_1 < \ldots < i_k \le m\)。序列长度 \(k\) 由 \(k = \lceil \mathcal{O}_{\%} \times m \rceil\) 决定,其中 \(\mathcal{O}_{\%} \in (0,1]\) 是观测比例,\(m\) 是原始计划的长度。

...

## 附录 B Token 使用量和成本

表 3:所有问题上 LLM 的 Token 使用量和成本(美元,每个问题平均)。

| 领域 | \( \mathcal{O}_{\%} \) | \|P\| | \|G\| | \|O\| | Qwen3.5 | GPT-OSS | GPT-4o | GPT-5.4 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| | | | | | PT | CT | TT | Cost | PT | CT | TT | Cost | PT | CT | TT | Cost | PT | CT | TT | Cost |
| BLOCKSWORLD | 10 | 246 | 20 | 3.1 | 818 | 626 | 1446 | 0.01 | 569 | 744 | 1313 | 0.02 | 766 | 1107 | 1874 | 0.02 | 765 | 1363 | 2129 | 0.02 |
| | 30 | 246 | 20 | 7.0 | 903 | 1519 | 2423 | 0.01 | 650 | 1166 | 1816 | 0.02 | 796 | 1060 | 1856 | 0.02 | 795 | 1329 | 2124 | 0.02 |
| | 50 | 246 | 20 | 11.1 | 933 | 2036 | 2969 | 0.01 | 690 | 1226 | 1916 | 0.02 | 821 | 1042 | 1863 | 0.01 | 820 | 1357 | 2178 | 0.02 |
| | 70 | 246 | 20 | 15.6 | 968 | 1492 | 2460 | 0.01 | 723 | 1259 | 1982 | 0.02 | 854 | 1065 | 1920 | 0.02 | 853 | 1335 | 2188 | 0.02 |
| | 100 | 92 | 20 | 21.7 | 995 | 1864 | 2859 | 0.02 | 740 | 897 | 1637 | 0.02 | 871 | 1035 | 1906 | 0.02 | 870 | 1244 | 2114 | 0.02 |
| CAMPUS | 10 | 152 | 20 | 1.0 | 2606 | 10672 | 13279 | 0.01 | 2492 | 2474 | 4967 | 0.01 | 2432 | 350 | 2782 | 0.01 | 2431 | 469 | 2900 | 0.01 |
| | 30 | 152 | 20 | 2.0 | 2621 | 10285 | 12907 | 0.01 | 2505 | 2994 | 5500 | 0.01 | 2445 | 373 | 2819 | 0.01 | 2444 | 538 | 2983 | 0.01 |
| | 50 | 152 | 20 | 3.0 | 2633 | 12413 | 15047 | 0.01 | 2516 | 2644 | 5161 | 0.01 | 2456 | 376 | 2833 | 0.01 | 2455 | 579 | 3035 | 0.01 |
| | 70 | 152 | 20 | 4.5 | 2655 | 10565 | 13221 | 0.02 | 2537 | 2651 | 5188 | 0.02 | 2477 | 367 | 2844 | 0.01 | 2476 | 606 | 3082 | 0.02 |
| | 100 | 152 | 20 | 5.4 | 2667 | 11792 | 14459 | 0.02 | 2548 | 2389 | 4937 | 0.02 | 2488 | 432 | 2921 | 0.02 | 2487 | 607 | 3095 | 0.02 |
| DRIVERLOG | 10 | 847 | 20 | 2.6 | 2768 | 13239 | 16007 | 0.02 | 2726 | 5542 | 8268 | 0.02 | 2666 | 850 | 3516 | 0.02 | 2665 | 1118 | 3783 | 0.02 |
| | 30 | 847 | 20 | 7.0 | 2825 | 13143 | 15968 | 0.02 | 2795 | 7671 | 10466 | 0.02 | 2735 | 824 | 3559 | 0.02 | 2734 | 1161 | 3896 | 0.02 |
| | 50 | 847 | 20 | 11.2 | 2989 | 17850 | 20839 | 0.02 | 2862 | 7111 | 9973 | 0.02 | 2802 | 803 | 3605 | 0.02 | 2801 | 1164 | 3966 | 0.02 |
| | 70 | 847 | 20 | 15.6 | 3068 | 18628 | 21696 | 0.02 | 2933 | 7235 | 10169 | 0.02 | 2873 | 813 | 3687 | 0.02 | 2872 | 1166 | 4039 | 0.02 |
| | 100 | 287 | 20 | 21.7 | 3014 | 12628 | 15642 | 0.02 | 3030 | 4676 | 7706 | 0.02 | 2970 | 800 | 3770 | 0.02 | 2969 | 1115 | 4084 | 0.02 |
| DWR | 10 | 847 | 20 | 5.7 | 2219 | 11832 | 14051 | 0.01 | 2158 | 7508 | 9667 | 0.01 | 2098 | 726 | 2825 | 0.01 | 2097 | 1015 | 3113 | 0.01 |
| | 30 | 847 | 20 | 16.0 | 2378 | 23776 | 26155 | 0.02 | 2301 | 10246 | 12547 | 0.02 | 2241 | 694 | 2935 | 0.01 | 2240 | 1082 | 3322 | 0.02 |
| | 50 | 847 | 20 | 26.2 | 2539 | 16869 | 19409 | 0.02 | 2444 | 10763 | 13207 | 0.02 | 2384 | 692 | 3076 | 0.02 | 2383 | 1096 | 3479 | 0.02 |
| | 70 | 847 | 20 | 36.9 | 2707 | 15079 | 17787 | 0.02 | 2592 | 12722 | 15314 | 0.02 | 2532 | 668 | 3200 | 0.01 | 2531 | 1108 | 3639 | 0.02 |
| | 100 | 287 | 20 | 51.9 | 2945 | 24986 | 27931 | 0.02 | 2801 | 10169 | 12971 | 0.02 | 2741 | 705 | 3447 | 0.02 | 2740 | 1034 | 3775 | 0.02 |
| 所有领域 | 10 | 4291 | 20 | 4.5 | 2135 | 13656 | 15792 | 0.01 | 2003 | 6824 | 8827 | 0.02 | 2031 | 956 | 2987 | 0.01 | 2030 | 1216 | 3246 | 0.02 |
| | 30 | 4291 | 20 | 7.4 | 2202 | 16258 | 18460 | 0.02 | 2155 | 10301 | 12456 | 0.02 | 2089 | 918 | 3008 | 0.01 | 2088 | 1220 | 3309 | 0.02 |
| | 50 | 4291 | 20 | 11.8 | 2283 | 18912 | 21196 | 0.02 | 2211 | 10626 | 12837 | 0.02 | 2146 | 903 | 3049 | 0.02 | 2145 | 1241 | 3386 | 0.02 |
| | 70 | 4291 | 20 | 16.8 | 2354 | 15529 | 17883 | 0.02 | 2273 | 11220 | 13494 | 0.02 | 2208 | 914 | 3122 | 0.01 | 2207 | 1232 | 3439 | 0.02 |
| | 100 | 1631 | 20 | 21.3 | 2395 | 18072 | 20468 | 0.02 | 2331 | 7836 | 10167 | 0.02 | 2266 | 882 | 3149 | 0.02 | 2265 | 1127 | 3393 | 0.02 |

## 附录 C 推理摘录

单个观测到的动作是 (PICK-UP O),这意味着智能体的直接意图是从桌子上抓起积木O。这个操作直接影响前提 (ONTABLE O),将其移除并使得O的“握持”状态变为真,同时将手的空置状态变为假。评估各个假说,最可能的目标应该涉及在当前动作之后合理的后续动作,在这种情况下,需要移除对 (CLEAR M)、(ONTABLE W)、(ON M O)、(ON O W) 的限制,这些是进一步堆叠或排序所必需的,特别是那些涉及O的限制。假说 (CLEAR M)、(ONTABLE W)、(ON M O)、(ON O W) 表明,从桌子上捡起O是第一个合乎逻辑的步骤,支持未来可能创建这种排列的动作,包括将M放在O或W上,这表明它是一个高度合理的意图序列,因此得分最高。

图 3:GPT-4o 在积木世界领域中对一个观测比例为10%的问题的推理。模型基于单个观测到的动作正确识别出了最可能的目标准则。

观测到的动作 (PUT-DOWN D) 直接影响积木D的放置。然而,没有一个目标假说明确提到积木D在桌子上或任何特定的配置,以至于仅凭这一步就能唯一地表明正在追求这样的目标。由于没有观察到独特的区分性动作,考虑到只有一个观测到的动作,并且没有特定的额外证据支持某个假说优于其他假说,我们假设每个目标假说具有相等的可能性。因此,在给定数据的条件下,所有假说的可能性相等。

图 4:GPT-4o 在积木世界领域中对一个观测比例为10%的问题的推理。模型推理认为单个观测到的动作不足以区分候选目标,因此赋予所有假说相等的可能性。这导致高分散度和低精确度,即使正确的目标包含在返回的集合中。

观测到的动作是 `PICK-UP P`,这表明智能体的第一步动作是从其初始位置(桌子上)拿起积木P。此动作直接影响那些积木P参与从初始状态转换的假说。那些合理涉及移动P或需要P作为堆叠一部分的假说倾向于获得更高分数。该动作并不能强有力地区分启动后积木的具体排列,但突出了P的即时重要性。不涉及P或P周围区域的假说得分较低。因此,与此初始动作最兼容的目标涉及P在堆叠中或处于清除位置,这表明了各种可能的顺序,由得分最高的假说多样性所指示。基于与P起始状态的相对性进行归一化后,得到最终分数。

图 5:GPT-4o 在积木世界领域中对一个观测比例为10%的问题的推理。模型确实将候选目标从21个缩小到8个。然而,在这种情况下它是错误的,因为真实目标并不突出涉及积木P。

初始状态和观测到的动作表明,智能体的第一步动作是将积木O堆叠到积木R上。此动作从一个O清晰且位于桌子上、R也清晰的状态下执行。执行 STACK O R 后,积木O和R由于成为堆叠的一部分而不再清晰,智能体的手将再次为空。从目标假说来看,任何包含 (ON O R) 或排列可能导致O直接在R上的目标,都可能是此动作所指向的。然而,由于唯一的观测动作是 STACK O R,它没有提供足够的信息来明确偏好哪一个目标,因为它可能是通向假说中描述的许多不同配置的一步。因此,每个目标假说获得相等的可能性分数,反映了在缺乏更具区分性的动作或证据来支持特定目标的情况下存在的不确定性。

图 6:GPT-4o 在积木世界领域中对一个观测比例为10%的问题的推理。模型推理了一种可能的选择小的方法。

相似文章

在复杂隐藏角色游戏中评估大型语言模型

arXiv cs.CL

本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。

PlanningBench: 生成可扩展且可验证的规划数据,用于评估和训练大型语言模型

arXiv cs.AI

PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。

ReAD:面向大型语言模型的强化引导能力蒸馏

arXiv cs.CL

本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。