从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象
摘要
本研究分析了大语言模型(LLM)在“四子连珠”游戏中的推理轨迹,发现LLM表现出短视规划特征:其表现主要取决于浅层的搜索广度,而非深层的预判能力,这与人类专家的规划方式截然不同。
arXiv:2605.06840v1 公告类型:新增
摘要:大型语言模型(LLM),尤其是推理模型,会生成长链条的思维链(CoT)推理,其中通常包含对未来结果的显式深思。然而,这种深思是否构成了真正的规划、其结构如何、以及哪些方面驱动了性能,目前仍知之甚少。在这项工作中,我们引入了一种新方法,通过在“四子连珠”棋盘游戏中从推理轨迹中提取和量化搜索树,来表征LLM的规划能力。通过对提取的搜索树拟合计算模型,我们刻画了规划的结构方式及其对移动决策的影响。我们发现,LLM的搜索深度不如人类,且其表现由搜索广度而非深度预测。最引人注目的是,尽管LLM在其轨迹中扩展了深层节点,但其移动选择最好由一个完全忽略这些节点的短视模型来解释。一项选择性修剪CoT段落的因果干预研究进一步表明,移动选择主要由浅层而非深层节点驱动。这些模式与人类规划形成鲜明对比,在人类规划中,表现主要由深层搜索驱动。综上所述,我们的研究揭示了LLM与人类规划之间的一个关键差异:虽然人类专长依赖于更深的搜索,但LLM并未对深层预判采取行动。这种解离为协调LLM与人类规划提供了针对性的指导。更广泛地说,我们的框架为解释战略领域中LLM规划的结构提供了一种可推广的方法。
查看缓存全文
缓存时间: 2026/05/11 07:07
# 从LLM推理轨迹中提取搜索树揭示了短视规划 来源: https://arxiv.org/html/2605.06840 Sixing Chen 心理学系 纽约大学 [email protected] Ji-An Li 纽约大学 [email protected] Saner Cakir Generality, Inc. [email protected] Sinan Akcali Generality, Inc. [email protected] Kayla Lee Generality, Inc. [email protected] Marcelo G. Mattar 心理学系 纽约大学 [email protected] ###### 摘要 大型语言模型(LLMs),尤其是推理模型,会生成扩展的思维链(CoT)推理,其中通常包含对未来结果的明确深思。然而,这种深思是否构成真正的规划、其结构如何,以及哪些特征驱动了性能,目前仍知之甚少。在本研究中,我们引入了一种新方法,通过从“四子连珠”(four-in-a-row)棋盘游戏的推理轨迹中提取和量化搜索树,来刻画LLM的规划能力。通过拟合提取出的搜索树上的计算模型,我们刻画了计划的结构及其对落子决策的影响。我们发现,LLM的搜索深度浅于人类,且性能由搜索广度而非深度预测。最引人注目的是,尽管LLM在其轨迹中扩展了深层节点,但其落子选择最好由完全忽略这些节点的短视模型来解释。一项因果干预研究,通过选择性修剪CoT段落,进一步表明落子选择主要由浅层而非深层节点驱动。这些模式与人类规划形成对比,在人类规划中,性能主要由深层搜索驱动。综上所述,我们的研究揭示了LLM与人类规划之间的关键差异:虽然人类的专业知识由更深的搜索驱动,但LLM并不基于深度前瞻行动。这种解离为对齐LLM和人类规划提供了有针对性的指导。更广泛地说,我们的框架为解释战略领域LLM规划的结构提供了一种可推广的方法。 ## 1 引言 大型语言模型(LLMs),尤其是推理模型,展示了惊人的扩展思维链(CoT)推理能力,模型在生成答案之前会生成冗长的推理轨迹\[33 (https://arxiv.org/html/2605.06840#bib.bib1)\]。在DeepSeek-R1\[6 (https://arxiv.org/html/2605.06840#bib.bib3)\]和OpenAI o1\[21 (https://arxiv.org/html/2605.06840#bib.bib2)\]等推理模型中,推理轨迹可以跨越数千个token,并包含对假设性未来的明确深思。这种深思类似于人类规划背后的心理模拟\[16 (https://arxiv.org/html/2605.06840#bib.bib4)\],这引发了这些模型参与前瞻性规划的可能性。 在经典人工智能(AI)和认知科学中,规划长期以来被形式化为树搜索,其中深度前向搜索是规划能力的关键驱动力。在AI领域,AlphaGo等游戏代理通过系统性地深入搜索未来实现了超人类性能\[27 (https://arxiv.org/html/2605.06840#bib.bib5),28 (https://arxiv.org/html/2605.06840#bib.bib6),24 (https://arxiv.org/html/2605.06840#bib.bib7)\]。在认知科学领域,树搜索同样作为建模人类规划的主要计算框架。研究表明,人类在心理上模拟未来动作序列以告知其决策\[19 (https://arxiv.org/html/2605.06840#bib.bib9),13 (https://arxiv.org/html/2605.06840#bib.bib8),3 (https://arxiv.org/html/2605.06840#bib.bib10),8 (https://arxiv.org/html/2605.06840#bib.bib11)\],且这种模拟的深度随专业知识的增加而增加\[32 (https://arxiv.org/html/2605.06840#bib.bib12),13 (https://arxiv.org/html/2605.06840#bib.bib8)\]。 然而,LLM是否参与这种基于搜索的规划仍然存在巨大争议。一种观点认为,LLM根本不具备规划能力,因为其自回归生成无法支持规划所需的系统搜索和回溯\[11 (https://arxiv.org/html/2605.06840#bib.bib13)\]。与此一致,几项使用行为基准的研究报告称,LLM在系统性多步规划上会失败,其输出最好由模式补全而非真正的规划来解释\[31 (https://arxiv.org/html/2605.06840#bib.bib14),36 (https://arxiv.org/html/2605.06840#bib.bib15)\]。相反的观点指出,推理模型在看似需要多步规划的挑战性任务(包括竞技编程、数学推理和策略游戏)上表现良好\[21 (https://arxiv.org/html/2605.06840#bib.bib2),6 (https://arxiv.org/html/2605.06840#bib.bib3),5 (https://arxiv.org/html/2605.06840#bib.bib16)\]。然而,这些结论主要通过分析行为结果得出,而未考察产生这些结果的推理结构。 解决这一争议因此需要提出不同的问题。首先,LLM推理轨迹是否表现出系统性搜索的结构特征?迄今为止,这个问题在很大程度上仍未得到解决,部分原因是推理轨迹冗长、啰嗦且非结构化,使得从中提取结构变得困难。最近的工作开始从推理轨迹中提取结构化图以预测推理质量,但仅应用于单一答案的推理任务(例如数学、科学和编码)\[9 (https://arxiv.org/html/2605.06840#bib.bib18),20 (https://arxiv.org/html/2605.06840#bib.bib19)\]。规划提出了不同的计算挑战:它不是寻找单一正确答案,而是需要评估*未来*动作序列及其后果。其次,如果LLM确实进行了搜索,这种搜索是否真正驱动了它们的决策?关键在于,即使LLM推理轨迹看起来像搜索,这种搜索可能并不驱动最终决策,这一差距在行为基准中不可见,且在现有文献中很大程度上未被探索。 在本工作中,我们通过引入一种方法来填补这一空白:从双人棋盘游戏的LLM推理轨迹中提取和量化搜索树,并拟合计算模型以刻画这些树如何影响落子决策。我们考虑的棋盘游戏是“四子连珠”(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A)。四子连珠非常适合这项调查,原因如下。首先,它是一个定义明确的策略游戏,使得树提取变得可行且可验证。其次,该游戏中的人类规划已由建立的计算认知模型充分刻画\[32 (https://arxiv.org/html/2605.06840#bib.bib12)\],提供了与人类直接比较的严格基线。第三,像国际象棋或围棋这样的流行游戏在LLM训练数据中大量存在,因此模型可能依赖记忆而非从头规划\[23 (https://arxiv.org/html/2605.06840#bib.bib20),17 (https://arxiv.org/html/2605.06840#bib.bib21)\]。相比之下,四子连珠游戏在互联网上不太可能被过度代表,使其成为测试规划能力的更干净的平台。 分析LLM玩四子连珠的推理轨迹,我们发现LLM的搜索比人类浅,且在控制搜索广度的情况下,搜索深度无法解释性能的额外方差。至关重要的是,尽管LLM扩展了深层节点,但其落子选择最好由完全忽略这些节点的短视模型来解释。一项因果干预研究(我们选择性地修剪CoT段落)进一步表明,落子选择主要由浅层而非深层搜索驱动。这些模式与人类规划形成对比,在人类规划中,专业知识主要由更深的搜索驱动。综上所述,我们的研究揭示LLM并不基于深度前瞻行动,且其规划策略与人类中由深度驱动的专业知识根本不同。 ## 2 游戏设置和搜索树提取 **图1:游戏设置和搜索树提取。** **(A)** 四子连珠游戏中的一个示例棋盘位置。两名玩家(黑方和白方)交替在4×9棋盘上放置棋子,首先实现四子连珠的玩家获胜。 **(B)** 任务提示。系统提示描述四子连珠的规则、棋盘表示(FEN记号)和落子提交格式。用户消息提供当前棋盘状态和当前行动的玩家。 **(C)** 推理轨迹和落子输出。模型在提交最终落子之前生成CoT推理轨迹。在示例推理轨迹中,模型深思的落子以蓝色突出显示,而深思的对手落子以橙色突出显示。 **(D)** 搜索树提取。LLM裁判(GPT-5)解析推理轨迹以提取所考虑落子的搜索树。在示例搜索树中,顶部的方块显示当前棋盘状态(由棋盘的FEN记号表示)。每个圆圈代表模型自身模拟落子后产生的状态,每个方块代表模拟对手落子后产生的状态。每个节点内的数字表示相应落子的棋盘坐标(从零开始索引)。所示搜索树仅用于说明,并不对应(A)中的示例棋盘位置。 ### 2.1 LLM四子连珠锦标赛 我们使用四子连珠来研究LLM中的规划。四子连珠是一个双人零和棋盘游戏(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A)。两名玩家(白方和黑方)交替在4×9网格上放置棋子。白方先行。首先沿水平、垂直或对角线连续放置四个棋子的玩家获胜。如果棋盘填满而没有获胜者,则游戏平局。 在游戏中,每个模型都会收到描述规则的系统提示(参见附录C (https://arxiv.org/html/2605.06840#A3).1以获取游戏提示)。棋盘状态使用类FEN记号\[35 (https://arxiv.org/html/2605.06840#bib.bib36),25 (https://arxiv.org/html/2605.06840#bib.bib37)\]传达:每行编码为棋子符号序列(W代表白方,B代表黑方),整数表示连续空单元格的运行,行之间用斜杠分隔。例如,`1WBB6/2BW1W4/1W1BW5/10`描述了一个四行棋盘,其中第一行包含一个空单元格,后跟一个白棋子、两个黑棋子和六个空单元格(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)A)。 在每一回合,棋盘状态和当前玩家作为用户消息传递,并要求模型以`(r,c)`格式响应落子,其中`r`和`c`是目标单元格的从零开始索引的行和列(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)B)。 我们进行了一场循环赛,27个模型相互竞争,每对模型进行4场比赛(交替谁先手),总共产生1404场比赛(参见附录B (https://arxiv.org/html/2605.06840#A2)以获取所有模型列表)。参与的模型涵盖了专有模型(例如GPT-5, Claude Opus 4.1)和开源权重模型(例如DeepSeek-R1, Qwen3-235B)。由于专有模型仅返回其推理轨迹的摘要,省略了中间推理步骤,因此所有后续分析仅限于14个推理轨迹完全可访问的模型。这产生了跨越1092场比赛的9696个推理轨迹。 ### 2.2 将推理轨迹转录为搜索树 推理轨迹是非结构化的自然语言,使得直接测量规划变得困难。为此,我们使用LLM裁判(GPT-5)将每个轨迹转录为形式化的搜索树。对于每一回合,裁判被给予模型的完整响应(其推理内容和输出的串联),并要求提取推理轨迹中明确深思的每一个落子(Figure 1 (https://arxiv.org/html/2605.06840#S2.F1)C-D)。 在搜索树中,坐标以从零开始索引的`(row,column)`格式编码。每个深度-1节点<sup>1</sup>代表模型明确考虑的候选首着,每个深度-2节点代表模型认为对手可能做出的回应,依此类推。裁判以嵌套列表格式生成搜索树。例如,嵌套列表`[[ (2,4), [(1,3), (2,2)]], [(0,3)]]`编码模型考虑的两个首着:`(2,4)`和`(0,3)`。在`(2,4)`下,模型预期对手在`(1,3)`和`(2,2)`有两个回应。另一个深度-1节点`(0,3)`是叶子节点,意味着模型考虑了它但没有进一步的前瞻。 仅包括轨迹中明确命名的落子;裁判被指示不要推断或幻觉落子。此过程应用于所有推理轨迹,为每一回合生成结构化的搜索树。我们构建了一个人工标注的推理轨迹验证集,并在应用于整个数据集之前使用它来优化提取提示(参见附录C (https://arxiv.org/html/2605.06840#A3).2以获取详细提取方法)。 > <sup>1</sup>我们使用*深度*来表示距当前棋盘状态(即搜索树的根)的距离。深度-1节点是模型走一步后的棋盘状态,深度-2节点是对手回应后的棋盘状态,依此类推。在游戏术语中,一*着*是单个玩家的单次移动;第*d*着对应导致深度-*d*状态的移动。 **图2:跨模型的规划努力和游戏性能。** **(A)** 胜率作为搜索树大小的函数。 **(B)** 搜索广度(考虑的首着候选数)作为深度(最大着数,即模拟的前置交替移动的最大数量)的函数,跨模型显示。 **(C)** 胜率作为广度-深度比的函数。虚线连接同一模型家族中的模型。星号表示显著性水平(`*p<0.05`,`**p<0.01`)。 ## 3 量化从推理轨迹中提取的搜索树 ### 3.1 搜索努力预测胜率 我们首先询问模型执行的搜索量是否预测其游戏性能。对于每个模型,我们计算其所有回合的平均树大小及其在锦标赛中的整体胜率。跨模型,我们发现搜索努力与胜率之间存在正相关关系(Figure 2 (https://arxiv.org/html/2605.06840#S2.F2)A),表明搜索更多的模型往往表现更好。这种关系不仅存在于所有模型之间,也存在于模型家族内部:在同一模型家族(例如DeepSeek, Qwen, Kimi)中,搜索更多的模型 consistently 获得更高的胜率。 一个特别具有信息意义的案例是GPT-OSS-120B,其中同一模型在两个推理努力级别下运行:中等和高。高设置分配了更多token用于推理,导致更大的搜索树和更高的胜率(Figure 2 (https://arxiv.org/html/2605.06840#S2.F2)A)。由于模型架构、权重和训练在各条件下相同,唯一的区别是推理时深思的量。这提供了因果证据,表明搜索努力驱动了性能提升。 ### 3.2 LLM搜索浅于人类 在确立了搜索量预测性能之后,我们接下来考察搜索的哪个方面驱动了这种提升。我们考虑了搜索努力的两个维度:深度(模型向前看的最大步数)和广度(第一着考虑的候选落子数量)。这两个维度描述了不同的...
相似文章
答案词元如何读取推理轨迹?思维大模型在定量推理中的自读模式
研究发现,思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点,并据此提出免训练 SRQ 引导方法,无需微调即可提升准确率。
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。
TriEx:基于博弈的三视角框架,揭示多智能体LLM内部推理
TriEx提出一种三视角博弈框架,将自我推理、对手信念状态与神谕审计对齐,使多智能体LLM决策可被审计,并揭示所述理由与实际行为之间的错配。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。