从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象

arXiv cs.AI 2026/05/11 04:00 论文

摘要

本研究分析了大语言模型（LLM）在“四子连珠”游戏中的推理轨迹，发现LLM表现出短视规划特征：其表现主要取决于浅层的搜索广度，而非深层的预判能力，这与人类专家的规划方式截然不同。

arXiv:2605.06840v1 公告类型：新增摘要：大型语言模型（LLM），尤其是推理模型，会生成长链条的思维链（CoT）推理，其中通常包含对未来结果的显式深思。然而，这种深思是否构成了真正的规划、其结构如何、以及哪些方面驱动了性能，目前仍知之甚少。在这项工作中，我们引入了一种新方法，通过在“四子连珠”棋盘游戏中从推理轨迹中提取和量化搜索树，来表征LLM的规划能力。通过对提取的搜索树拟合计算模型，我们刻画了规划的结构方式及其对移动决策的影响。我们发现，LLM的搜索深度不如人类，且其表现由搜索广度而非深度预测。最引人注目的是，尽管LLM在其轨迹中扩展了深层节点，但其移动选择最好由一个完全忽略这些节点的短视模型来解释。一项选择性修剪CoT段落的因果干预研究进一步表明，移动选择主要由浅层而非深层节点驱动。这些模式与人类规划形成鲜明对比，在人类规划中，表现主要由深层搜索驱动。综上所述，我们的研究揭示了LLM与人类规划之间的一个关键差异：虽然人类专长依赖于更深的搜索，但LLM并未对深层预判采取行动。这种解离为协调LLM与人类规划提供了针对性的指导。更广泛地说，我们的框架为解释战略领域中LLM规划的结构提供了一种可推广的方法。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:07

# 从LLM推理轨迹中提取搜索树揭示了短视规划

来源: https://arxiv.org/html/2605.06840

Sixing Chen
心理学系
纽约大学
[email protected]

Ji-An Li
纽约大学
[email protected]

Saner Cakir
Generality, Inc.
[email protected]

Sinan Akcali
Generality, Inc.
[email protected]

Kayla Lee
Generality, Inc.
[email protected]

Marcelo G. Mattar
心理学系
纽约大学
[email protected]

###### 摘要

大型语言模型（LLMs），尤其是推理模型，会生成扩展的思维链（CoT）推理，其中通常包含对未来结果的明确深思。然而，这种深思是否构成真正的规划、其结构如何，以及哪些特征驱动了性能，目前仍知之甚少。在本研究中，我们引入了一种新方法，通过从“四子连珠”（four-in-a-row）棋盘游戏的推理轨迹中提取和量化搜索树，来刻画LLM的规划能力。通过拟合提取出的搜索树上的计算模型，我们刻画了计划的结构及其对落子决策的影响。我们发现，LLM的搜索深度浅于人类，且性能由搜索广度而非深度预测。最引人注目的是，尽管LLM在其轨迹中扩展了深层节点，但其落子选择最好由完全忽略这些节点的短视模型来解释。一项因果干预研究，通过选择性修剪CoT段落，进一步表明落子选择主要由浅层而非深层节点驱动。这些模式与人类规划形成对比，在人类规划中，性能主要由深层搜索驱动。综上所述，我们的研究揭示了LLM与人类规划之间的关键差异：虽然人类的专业知识由更深的搜索驱动，但LLM并不基于深度前瞻行动。这种解离为对齐LLM和人类规划提供了有针对性的指导。更广泛地说，我们的框架为解释战略领域LLM规划的结构提供了一种可推广的方法。

## 1 引言

大型语言模型（LLMs），尤其是推理模型，展示了惊人的扩展思维链（CoT）推理能力，模型在生成答案之前会生成冗长的推理轨迹\[33 (https://arxiv.org/html/2605.06840#bib.bib1)\]。在DeepSeek-R1\[6 (https://arxiv.org/html/2605.06840#bib.bib3)\]和OpenAI o1\[21 (https://arxiv.org/html/2605.06840#bib.bib2)\]等推理模型中，推理轨迹可以跨越数千个token，并包含对假设性未来的明确深思。这种深思类似于人类规划背后的心理模拟\[16 (https://arxiv.org/html/2605.06840#bib.bib4)\]，这引发了这些模型参与前瞻性规划的可能性。

在经典人工智能（AI）和认知科学中，规划长期以来被形式化为树搜索，其中深度前向搜索是规划能力的关键驱动力。在AI领域，AlphaGo等游戏代理通过系统性地深入搜索未来实现了超人类性能\[27 (https://arxiv.org/html/2605.06840#bib.bib5),28 (https://arxiv.org/html/2605.06840#bib.bib6),24 (https://arxiv.org/html/2605.06840#bib.bib7)\]。在认知科学领域，树搜索同样作为建模人类规划的主要计算框架。研究表明，人类在心理上模拟未来动作序列以告知其决策\[19 (https://arxiv.org/html/2605.06840#bib.bib9),13 (https://arxiv.org/html/2605.06840#bib.bib8),3 (https://arxiv.org/html/2605.06840#bib.bib10),8 (https://arxiv.org/html/2605.06840#bib.bib11)\]，且这种模拟的深度随专业知识的增加而增加\[32 (https://arxiv.org/html/2605.06840#bib.bib12),13 (https://arxiv.org/html/2605.06840#bib.bib8)\]。

然而，LLM是否参与这种基于搜索的规划仍然存在巨大争议。一种观点认为，LLM根本不具备规划能力，因为其自回归生成无法支持规划所需的系统搜索和回溯\[11 (https://arxiv.org/html/2605.06840#bib.bib13)\]。与此一致，几项使用行为基准的研究报告称，LLM在系统性多步规划上会失败，其输出最好由模式补全而非真正的规划来解释\[31 (https://arxiv.org/html/2605.06840#bib.bib14),36 (https://arxiv.org/html/2605.06840#bib.bib15)\]。相反的观点指出，推理模型在看似需要多步规划的挑战性任务（包括竞技编程、数学推理和策略游戏）上表现良好\[21 (https://arxiv.org/html/2605.06840#bib.bib2),6 (https://arxiv.org/html/2605.06840#bib.bib3),5 (https://arxiv.org/html/2605.06840#bib.bib16)\]。然而，这些结论主要通过分析行为结果得出，而未考察产生这些结果的推理结构。

解决这一争议因此需要提出不同的问题。首先，LLM推理轨迹是否表现出系统性搜索的结构特征？迄今为止，这个问题在很大程度上仍未得到解决，部分原因是推理轨迹冗长、啰嗦且非结构化，使得从中提取结构变得困难。最近的工作开始从推理轨迹中提取结构化图以预测推理质量，但仅应用于单一答案的推理任务（例如数学、科学和编码）\[9 (https://arxiv.org/html/2605.06840#bib.bib18),20 (https://arxiv.org/html/2605.06840#bib.bib19)\]。规划提出了不同的计算挑战：它不是寻找单一正确答案，而是需要评估*未来*动作序列及其后果。其次，如果LLM确实进行了搜索，这种搜索是否真正驱动了它们的决策？关键在于，即使LLM推理轨迹看起来像搜索，这种搜索可能并不驱动最终决策，这一差距在行为基准中不可见，且在现有文献中很大程度上未被探索。

在本工作中，我们通过引入一种方法来填补这一空白：从双人棋盘游戏的LLM推理轨迹中提取和量化搜索树，并拟合计算模型以刻画这些树如何影响落子决策。我们考虑的棋盘游戏是“四子连珠”（Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A）。四子连珠非常适合这项调查，原因如下。首先，它是一个定义明确的策略游戏，使得树提取变得可行且可验证。其次，该游戏中的人类规划已由建立的计算认知模型充分刻画\[32 (https://arxiv.org/html/2605.06840#bib.bib12)\]，提供了与人类直接比较的严格基线。第三，像国际象棋或围棋这样的流行游戏在LLM训练数据中大量存在，因此模型可能依赖记忆而非从头规划\[23 (https://arxiv.org/html/2605.06840#bib.bib20),17 (https://arxiv.org/html/2605.06840#bib.bib21)\]。相比之下，四子连珠游戏在互联网上不太可能被过度代表，使其成为测试规划能力的更干净的平台。

分析LLM玩四子连珠的推理轨迹，我们发现LLM的搜索比人类浅，且在控制搜索广度的情况下，搜索深度无法解释性能的额外方差。至关重要的是，尽管LLM扩展了深层节点，但其落子选择最好由完全忽略这些节点的短视模型来解释。一项因果干预研究（我们选择性地修剪CoT段落）进一步表明，落子选择主要由浅层而非深层搜索驱动。这些模式与人类规划形成对比，在人类规划中，专业知识主要由更深的搜索驱动。综上所述，我们的研究揭示LLM并不基于深度前瞻行动，且其规划策略与人类中由深度驱动的专业知识根本不同。

## 2 游戏设置和搜索树提取

**图1：游戏设置和搜索树提取。**
**(A)** 四子连珠游戏中的一个示例棋盘位置。两名玩家（黑方和白方）交替在4×9棋盘上放置棋子，首先实现四子连珠的玩家获胜。
**(B)** 任务提示。系统提示描述四子连珠的规则、棋盘表示（FEN记号）和落子提交格式。用户消息提供当前棋盘状态和当前行动的玩家。
**(C)** 推理轨迹和落子输出。模型在提交最终落子之前生成CoT推理轨迹。在示例推理轨迹中，模型深思的落子以蓝色突出显示，而深思的对手落子以橙色突出显示。
**(D)** 搜索树提取。LLM裁判（GPT-5）解析推理轨迹以提取所考虑落子的搜索树。在示例搜索树中，顶部的方块显示当前棋盘状态（由棋盘的FEN记号表示）。每个圆圈代表模型自身模拟落子后产生的状态，每个方块代表模拟对手落子后产生的状态。每个节点内的数字表示相应落子的棋盘坐标（从零开始索引）。所示搜索树仅用于说明，并不对应(A)中的示例棋盘位置。

### 2.1 LLM四子连珠锦标赛

我们使用四子连珠来研究LLM中的规划。四子连珠是一个双人零和棋盘游戏（Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A）。两名玩家（白方和黑方）交替在4×9网格上放置棋子。白方先行。首先沿水平、垂直或对角线连续放置四个棋子的玩家获胜。如果棋盘填满而没有获胜者，则游戏平局。

在游戏中，每个模型都会收到描述规则的系统提示（参见附录C (https://arxiv.org/html/2605.06840#A3).1以获取游戏提示）。棋盘状态使用类FEN记号\[35 (https://arxiv.org/html/2605.06840#bib.bib36),25 (https://arxiv.org/html/2605.06840#bib.bib37)\]传达：每行编码为棋子符号序列（W代表白方，B代表黑方），整数表示连续空单元格的运行，行之间用斜杠分隔。例如，`1WBB6/2BW1W4/1W1BW5/10`描述了一个四行棋盘，其中第一行包含一个空单元格，后跟一个白棋子、两个黑棋子和六个空单元格（Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A）。

在每一回合，棋盘状态和当前玩家作为用户消息传递，并要求模型以`(r,c)`格式响应落子，其中`r`和`c`是目标单元格的从零开始索引的行和列（Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)B）。

我们进行了一场循环赛，27个模型相互竞争，每对模型进行4场比赛（交替谁先手），总共产生1404场比赛（参见附录B (https://arxiv.org/html/2605.06840#A2)以获取所有模型列表）。参与的模型涵盖了专有模型（例如GPT-5, Claude Opus 4.1）和开源权重模型（例如DeepSeek-R1, Qwen3-235B）。由于专有模型仅返回其推理轨迹的摘要，省略了中间推理步骤，因此所有后续分析仅限于14个推理轨迹完全可访问的模型。这产生了跨越1092场比赛的9696个推理轨迹。

### 2.2 将推理轨迹转录为搜索树

推理轨迹是非结构化的自然语言，使得直接测量规划变得困难。为此，我们使用LLM裁判（GPT-5）将每个轨迹转录为形式化的搜索树。对于每一回合，裁判被给予模型的完整响应（其推理内容和输出的串联），并要求提取推理轨迹中明确深思的每一个落子（Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)C-D）。

在搜索树中，坐标以从零开始索引的`(row,column)`格式编码。每个深度-1节点<sup>1</sup>代表模型明确考虑的候选首着，每个深度-2节点代表模型认为对手可能做出的回应，依此类推。裁判以嵌套列表格式生成搜索树。例如，嵌套列表`[[ (2,4), [(1,3), (2,2)]], [(0,3)]]`编码模型考虑的两个首着：`(2,4)`和`(0,3)`。在`(2,4)`下，模型预期对手在`(1,3)`和`(2,2)`有两个回应。另一个深度-1节点`(0,3)`是叶子节点，意味着模型考虑了它但没有进一步的前瞻。

仅包括轨迹中明确命名的落子；裁判被指示不要推断或幻觉落子。此过程应用于所有推理轨迹，为每一回合生成结构化的搜索树。我们构建了一个人工标注的推理轨迹验证集，并在应用于整个数据集之前使用它来优化提取提示（参见附录C (https://arxiv.org/html/2605.06840#A3).2以获取详细提取方法）。

> <sup>1</sup>我们使用*深度*来表示距当前棋盘状态（即搜索树的根）的距离。深度-1节点是模型走一步后的棋盘状态，深度-2节点是对手回应后的棋盘状态，依此类推。在游戏术语中，一*着*是单个玩家的单次移动；第*d*着对应导致深度-*d*状态的移动。

**图2：跨模型的规划努力和游戏性能。**
**(A)** 胜率作为搜索树大小的函数。
**(B)** 搜索广度（考虑的首着候选数）作为深度（最大着数，即模拟的前置交替移动的最大数量）的函数，跨模型显示。
**(C)** 胜率作为广度-深度比的函数。虚线连接同一模型家族中的模型。星号表示显著性水平（`*p<0.05`，`**p<0.01`）。

## 3 量化从推理轨迹中提取的搜索树

### 3.1 搜索努力预测胜率

我们首先询问模型执行的搜索量是否预测其游戏性能。对于每个模型，我们计算其所有回合的平均树大小及其在锦标赛中的整体胜率。跨模型，我们发现搜索努力与胜率之间存在正相关关系（Figure 2 (https://arxiv.org/html/2605.06840#S2.F2)A），表明搜索更多的模型往往表现更好。这种关系不仅存在于所有模型之间，也存在于模型家族内部：在同一模型家族（例如DeepSeek, Qwen, Kimi）中，搜索更多的模型 consistently 获得更高的胜率。

一个特别具有信息意义的案例是GPT-OSS-120B，其中同一模型在两个推理努力级别下运行：中等和高。高设置分配了更多token用于推理，导致更大的搜索树和更高的胜率（Figure 2 (https://arxiv.org/html/2605.06840#S2.F2)A）。由于模型架构、权重和训练在各条件下相同，唯一的区别是推理时深思的量。这提供了因果证据，表明搜索努力驱动了性能提升。

### 3.2 LLM搜索浅于人类

在确立了搜索量预测性能之后，我们接下来考察搜索的哪个方面驱动了这种提升。我们考虑了搜索努力的两个维度：深度（模型向前看的最大步数）和广度（第一着考虑的候选落子数量）。这两个维度描述了不同的...

从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象

相似文章

答案词元如何读取推理轨迹？思维大模型在定量推理中的自读模式

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

TriEx：基于博弈的三视角框架，揭示多智能体LLM内部推理

强化学习能否教会大型语言模型进行长程推理？表达力是关键

揭示大语言模型中的数学推理：内部机制的方法学研究

提交意见反馈