从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象

arXiv cs.AI 论文

摘要

本研究分析了大语言模型(LLM)在“四子连珠”游戏中的推理轨迹,发现LLM表现出短视规划特征:其表现主要取决于浅层的搜索广度,而非深层的预判能力,这与人类专家的规划方式截然不同。

arXiv:2605.06840v1 公告类型:新增 摘要:大型语言模型(LLM),尤其是推理模型,会生成长链条的思维链(CoT)推理,其中通常包含对未来结果的显式深思。然而,这种深思是否构成了真正的规划、其结构如何、以及哪些方面驱动了性能,目前仍知之甚少。在这项工作中,我们引入了一种新方法,通过在“四子连珠”棋盘游戏中从推理轨迹中提取和量化搜索树,来表征LLM的规划能力。通过对提取的搜索树拟合计算模型,我们刻画了规划的结构方式及其对移动决策的影响。我们发现,LLM的搜索深度不如人类,且其表现由搜索广度而非深度预测。最引人注目的是,尽管LLM在其轨迹中扩展了深层节点,但其移动选择最好由一个完全忽略这些节点的短视模型来解释。一项选择性修剪CoT段落的因果干预研究进一步表明,移动选择主要由浅层而非深层节点驱动。这些模式与人类规划形成鲜明对比,在人类规划中,表现主要由深层搜索驱动。综上所述,我们的研究揭示了LLM与人类规划之间的一个关键差异:虽然人类专长依赖于更深的搜索,但LLM并未对深层预判采取行动。这种解离为协调LLM与人类规划提供了针对性的指导。更广泛地说,我们的框架为解释战略领域中LLM规划的结构提供了一种可推广的方法。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:07

# 从LLM推理轨迹中提取搜索树揭示了短视规划

来源: https://arxiv.org/html/2605.06840

Sixing Chen
心理学系
纽约大学
[email protected]

Ji-An Li
纽约大学
[email protected]

Saner Cakir
Generality, Inc.
[email protected]

Sinan Akcali
Generality, Inc.
[email protected]

Kayla Lee
Generality, Inc.
[email protected]

Marcelo G. Mattar
心理学系
纽约大学
[email protected]

###### 摘要

大型语言模型(LLMs),尤其是推理模型,会生成扩展的思维链(CoT)推理,其中通常包含对未来结果的明确深思。然而,这种深思是否构成真正的规划、其结构如何,以及哪些特征驱动了性能,目前仍知之甚少。在本研究中,我们引入了一种新方法,通过从“四子连珠”(four-in-a-row)棋盘游戏的推理轨迹中提取和量化搜索树,来刻画LLM的规划能力。通过拟合提取出的搜索树上的计算模型,我们刻画了计划的结构及其对落子决策的影响。我们发现,LLM的搜索深度浅于人类,且性能由搜索广度而非深度预测。最引人注目的是,尽管LLM在其轨迹中扩展了深层节点,但其落子选择最好由完全忽略这些节点的短视模型来解释。一项因果干预研究,通过选择性修剪CoT段落,进一步表明落子选择主要由浅层而非深层节点驱动。这些模式与人类规划形成对比,在人类规划中,性能主要由深层搜索驱动。综上所述,我们的研究揭示了LLM与人类规划之间的关键差异:虽然人类的专业知识由更深的搜索驱动,但LLM并不基于深度前瞻行动。这种解离为对齐LLM和人类规划提供了有针对性的指导。更广泛地说,我们的框架为解释战略领域LLM规划的结构提供了一种可推广的方法。

## 1 引言

大型语言模型(LLMs),尤其是推理模型,展示了惊人的扩展思维链(CoT)推理能力,模型在生成答案之前会生成冗长的推理轨迹\[33 (https://arxiv.org/html/2605.06840#bib.bib1)\]。在DeepSeek-R1\[6 (https://arxiv.org/html/2605.06840#bib.bib3)\]和OpenAI o1\[21 (https://arxiv.org/html/2605.06840#bib.bib2)\]等推理模型中,推理轨迹可以跨越数千个token,并包含对假设性未来的明确深思。这种深思类似于人类规划背后的心理模拟\[16 (https://arxiv.org/html/2605.06840#bib.bib4)\],这引发了这些模型参与前瞻性规划的可能性。

在经典人工智能(AI)和认知科学中,规划长期以来被形式化为树搜索,其中深度前向搜索是规划能力的关键驱动力。在AI领域,AlphaGo等游戏代理通过系统性地深入搜索未来实现了超人类性能\[27 (https://arxiv.org/html/2605.06840#bib.bib5),28 (https://arxiv.org/html/2605.06840#bib.bib6),24 (https://arxiv.org/html/2605.06840#bib.bib7)\]。在认知科学领域,树搜索同样作为建模人类规划的主要计算框架。研究表明,人类在心理上模拟未来动作序列以告知其决策\[19 (https://arxiv.org/html/2605.06840#bib.bib9),13 (https://arxiv.org/html/2605.06840#bib.bib8),3 (https://arxiv.org/html/2605.06840#bib.bib10),8 (https://arxiv.org/html/2605.06840#bib.bib11)\],且这种模拟的深度随专业知识的增加而增加\[32 (https://arxiv.org/html/2605.06840#bib.bib12),13 (https://arxiv.org/html/2605.06840#bib.bib8)\]。

然而,LLM是否参与这种基于搜索的规划仍然存在巨大争议。一种观点认为,LLM根本不具备规划能力,因为其自回归生成无法支持规划所需的系统搜索和回溯\[11 (https://arxiv.org/html/2605.06840#bib.bib13)\]。与此一致,几项使用行为基准的研究报告称,LLM在系统性多步规划上会失败,其输出最好由模式补全而非真正的规划来解释\[31 (https://arxiv.org/html/2605.06840#bib.bib14),36 (https://arxiv.org/html/2605.06840#bib.bib15)\]。相反的观点指出,推理模型在看似需要多步规划的挑战性任务(包括竞技编程、数学推理和策略游戏)上表现良好\[21 (https://arxiv.org/html/2605.06840#bib.bib2),6 (https://arxiv.org/html/2605.06840#bib.bib3),5 (https://arxiv.org/html/2605.06840#bib.bib16)\]。然而,这些结论主要通过分析行为结果得出,而未考察产生这些结果的推理结构。

解决这一争议因此需要提出不同的问题。首先,LLM推理轨迹是否表现出系统性搜索的结构特征?迄今为止,这个问题在很大程度上仍未得到解决,部分原因是推理轨迹冗长、啰嗦且非结构化,使得从中提取结构变得困难。最近的工作开始从推理轨迹中提取结构化图以预测推理质量,但仅应用于单一答案的推理任务(例如数学、科学和编码)\[9 (https://arxiv.org/html/2605.06840#bib.bib18),20 (https://arxiv.org/html/2605.06840#bib.bib19)\]。规划提出了不同的计算挑战:它不是寻找单一正确答案,而是需要评估*未来*动作序列及其后果。其次,如果LLM确实进行了搜索,这种搜索是否真正驱动了它们的决策?关键在于,即使LLM推理轨迹看起来像搜索,这种搜索可能并不驱动最终决策,这一差距在行为基准中不可见,且在现有文献中很大程度上未被探索。

在本工作中,我们通过引入一种方法来填补这一空白:从双人棋盘游戏的LLM推理轨迹中提取和量化搜索树,并拟合计算模型以刻画这些树如何影响落子决策。我们考虑的棋盘游戏是“四子连珠”(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A)。四子连珠非常适合这项调查,原因如下。首先,它是一个定义明确的策略游戏,使得树提取变得可行且可验证。其次,该游戏中的人类规划已由建立的计算认知模型充分刻画\[32 (https://arxiv.org/html/2605.06840#bib.bib12)\],提供了与人类直接比较的严格基线。第三,像国际象棋或围棋这样的流行游戏在LLM训练数据中大量存在,因此模型可能依赖记忆而非从头规划\[23 (https://arxiv.org/html/2605.06840#bib.bib20),17 (https://arxiv.org/html/2605.06840#bib.bib21)\]。相比之下,四子连珠游戏在互联网上不太可能被过度代表,使其成为测试规划能力的更干净的平台。

分析LLM玩四子连珠的推理轨迹,我们发现LLM的搜索比人类浅,且在控制搜索广度的情况下,搜索深度无法解释性能的额外方差。至关重要的是,尽管LLM扩展了深层节点,但其落子选择最好由完全忽略这些节点的短视模型来解释。一项因果干预研究(我们选择性地修剪CoT段落)进一步表明,落子选择主要由浅层而非深层搜索驱动。这些模式与人类规划形成对比,在人类规划中,专业知识主要由更深的搜索驱动。综上所述,我们的研究揭示LLM并不基于深度前瞻行动,且其规划策略与人类中由深度驱动的专业知识根本不同。

## 2 游戏设置和搜索树提取

**图1:游戏设置和搜索树提取。**
**(A)** 四子连珠游戏中的一个示例棋盘位置。两名玩家(黑方和白方)交替在4×9棋盘上放置棋子,首先实现四子连珠的玩家获胜。
**(B)** 任务提示。系统提示描述四子连珠的规则、棋盘表示(FEN记号)和落子提交格式。用户消息提供当前棋盘状态和当前行动的玩家。
**(C)** 推理轨迹和落子输出。模型在提交最终落子之前生成CoT推理轨迹。在示例推理轨迹中,模型深思的落子以蓝色突出显示,而深思的对手落子以橙色突出显示。
**(D)** 搜索树提取。LLM裁判(GPT-5)解析推理轨迹以提取所考虑落子的搜索树。在示例搜索树中,顶部的方块显示当前棋盘状态(由棋盘的FEN记号表示)。每个圆圈代表模型自身模拟落子后产生的状态,每个方块代表模拟对手落子后产生的状态。每个节点内的数字表示相应落子的棋盘坐标(从零开始索引)。所示搜索树仅用于说明,并不对应(A)中的示例棋盘位置。

### 2.1 LLM四子连珠锦标赛

我们使用四子连珠来研究LLM中的规划。四子连珠是一个双人零和棋盘游戏(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A)。两名玩家(白方和黑方)交替在4×9网格上放置棋子。白方先行。首先沿水平、垂直或对角线连续放置四个棋子的玩家获胜。如果棋盘填满而没有获胜者,则游戏平局。

在游戏中,每个模型都会收到描述规则的系统提示(参见附录C (https://arxiv.org/html/2605.06840#A3).1以获取游戏提示)。棋盘状态使用类FEN记号\[35 (https://arxiv.org/html/2605.06840#bib.bib36),25 (https://arxiv.org/html/2605.06840#bib.bib37)\]传达:每行编码为棋子符号序列(W代表白方,B代表黑方),整数表示连续空单元格的运行,行之间用斜杠分隔。例如,`1WBB6/2BW1W4/1W1BW5/10`描述了一个四行棋盘,其中第一行包含一个空单元格,后跟一个白棋子、两个黑棋子和六个空单元格(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A)。

在每一回合,棋盘状态和当前玩家作为用户消息传递,并要求模型以`(r,c)`格式响应落子,其中`r`和`c`是目标单元格的从零开始索引的行和列(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)B)。

我们进行了一场循环赛,27个模型相互竞争,每对模型进行4场比赛(交替谁先手),总共产生1404场比赛(参见附录B (https://arxiv.org/html/2605.06840#A2)以获取所有模型列表)。参与的模型涵盖了专有模型(例如GPT-5, Claude Opus 4.1)和开源权重模型(例如DeepSeek-R1, Qwen3-235B)。由于专有模型仅返回其推理轨迹的摘要,省略了中间推理步骤,因此所有后续分析仅限于14个推理轨迹完全可访问的模型。这产生了跨越1092场比赛的9696个推理轨迹。

### 2.2 将推理轨迹转录为搜索树

推理轨迹是非结构化的自然语言,使得直接测量规划变得困难。为此,我们使用LLM裁判(GPT-5)将每个轨迹转录为形式化的搜索树。对于每一回合,裁判被给予模型的完整响应(其推理内容和输出的串联),并要求提取推理轨迹中明确深思的每一个落子(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)C-D)。

在搜索树中,坐标以从零开始索引的`(row,column)`格式编码。每个深度-1节点<sup>1</sup>代表模型明确考虑的候选首着,每个深度-2节点代表模型认为对手可能做出的回应,依此类推。裁判以嵌套列表格式生成搜索树。例如,嵌套列表`[[ (2,4), [(1,3), (2,2)]], [(0,3)]]`编码模型考虑的两个首着:`(2,4)`和`(0,3)`。在`(2,4)`下,模型预期对手在`(1,3)`和`(2,2)`有两个回应。另一个深度-1节点`(0,3)`是叶子节点,意味着模型考虑了它但没有进一步的前瞻。

仅包括轨迹中明确命名的落子;裁判被指示不要推断或幻觉落子。此过程应用于所有推理轨迹,为每一回合生成结构化的搜索树。我们构建了一个人工标注的推理轨迹验证集,并在应用于整个数据集之前使用它来优化提取提示(参见附录C (https://arxiv.org/html/2605.06840#A3).2以获取详细提取方法)。

> <sup>1</sup>我们使用*深度*来表示距当前棋盘状态(即搜索树的根)的距离。深度-1节点是模型走一步后的棋盘状态,深度-2节点是对手回应后的棋盘状态,依此类推。在游戏术语中,一*着*是单个玩家的单次移动;第*d*着对应导致深度-*d*状态的移动。

**图2:跨模型的规划努力和游戏性能。**
**(A)** 胜率作为搜索树大小的函数。
**(B)** 搜索广度(考虑的首着候选数)作为深度(最大着数,即模拟的前置交替移动的最大数量)的函数,跨模型显示。
**(C)** 胜率作为广度-深度比的函数。虚线连接同一模型家族中的模型。星号表示显著性水平(`*p<0.05`,`**p<0.01`)。

## 3 量化从推理轨迹中提取的搜索树

### 3.1 搜索努力预测胜率

我们首先询问模型执行的搜索量是否预测其游戏性能。对于每个模型,我们计算其所有回合的平均树大小及其在锦标赛中的整体胜率。跨模型,我们发现搜索努力与胜率之间存在正相关关系(Figure 2 (https://arxiv.org/html/2605.06840#S2.F2)A),表明搜索更多的模型往往表现更好。这种关系不仅存在于所有模型之间,也存在于模型家族内部:在同一模型家族(例如DeepSeek, Qwen, Kimi)中,搜索更多的模型 consistently 获得更高的胜率。

一个特别具有信息意义的案例是GPT-OSS-120B,其中同一模型在两个推理努力级别下运行:中等和高。高设置分配了更多token用于推理,导致更大的搜索树和更高的胜率(Figure 2 (https://arxiv.org/html/2605.06840#S2.F2)A)。由于模型架构、权重和训练在各条件下相同,唯一的区别是推理时深思的量。这提供了因果证据,表明搜索努力驱动了性能提升。

### 3.2 LLM搜索浅于人类

在确立了搜索量预测性能之后,我们接下来考察搜索的哪个方面驱动了这种提升。我们考虑了搜索努力的两个维度:深度(模型向前看的最大步数)和广度(第一着考虑的候选落子数量)。这两个维度描述了不同的...

相似文章