Thoughts-as-Planning: 通过强化规划进行思维链优化的潜在世界模型
摘要
介绍了Thoughts-as-Planning框架,该框架使用潜在世界模型和强化学习将思维链优化建模为序列决策过程,在效率和泛化方面优于现有方法。
arXiv:2605.28842v1 公告类型:新
摘要:大语言模型(LLM)在各种NLP任务中的成功,提升了推理链优化作为对齐模型行为与任务目标的关键步骤的重要性。现有的推理链调优方法通常依赖黑盒启发式或免梯度搜索,缺乏可解释性、泛化能力和样本效率。在这项工作中,我们引入了\textbf{Thoughts-as-Planning},这是一个新颖的框架,它将推理链优化形式化为在潜在语义空间上的序列决策过程。我们将LLM建模为部分可观测环境,并学习一个潜在世界模型,该模型模拟推理链编辑对下游输出的影响。构建了一个保近嵌入空间来编码推理链-响应动态,从而通过梯度下降或强化学习实现规划。我们的方法支持多尺度抽象,允许在令牌、片段和指令级别进行推理链编辑,并将其整合到一个统一的规划器中。通过在语言理解和生成任务上的大量实验,我们证明Thoughts-as-Planning在效率、鲁棒性和泛化方面优于最先进的推理链调优基线,同时通过其结构化的规划轨迹提供了可解释性。我们的代码可在https://github.com/FastLM/Thoughts-as-Planning获取。
查看缓存全文
缓存时间: 2026/05/29 09:13
# 1 引言 来源:https://arxiv.org/html/2605.28842 **思考即规划:通过强化规划进行思维链优化的潜在世界模型** 刘冬、余彦萱、吴英年 加州大学洛杉矶分校 [email protected] 哥伦比亚大学 [email protected] 加州大学洛杉矶分校 [email protected] ###### 摘要 大语言模型(LLMs)在各种自然语言处理任务上的成功,提升了推理链优化作为对齐模型行为与任务目标的关键步骤的重要性。现有的推理链微调方法通常依赖黑盒启发式或无梯度搜索,缺乏可解释性、泛化能力和样本效率。在这项工作中,我们提出了“思考即规划”(Thoughts-as-Planning),一种新颖的框架,将推理链优化形式化为在潜在语义空间上的序列决策过程。我们将LLM建模为部分可观测环境,并学习一个潜在世界模型来模拟推理链编辑对下游输出的影响。我们构建了一个保持邻近性的嵌入空间来编码推理链-响应的动态,从而能够通过梯度下降或强化学习进行规划。我们的方法支持多尺度抽象,允许在标记、片段和指令级别进行推理链编辑,并将其集成到统一的规划器中。通过在语言理解和生成任务上的广泛实验,我们展示了思考即规划在效率、鲁棒性和泛化性方面优于最先进的推理链微调基线,同时通过其结构化的规划轨迹提供了可解释性。我们的代码可在 https://github.com/FastLM/Thoughts-as-Planning 获取。 大语言模型(LLMs)在包括推理、摘要和对话生成在内的广泛任务中展现了卓越的能力。思维链(CoT)推理已成为一种强大的技术,通过逐步的思考过程来增强LLM的推理能力 [Wei et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib4)]。然而,CoT推理的有效性高度依赖于推理链的结构和质量——即引导模型推理过程的顺序思考步骤。推理步骤的表述、逻辑流程或中间结论的微小变化都可能导致性能的显著差异 [Wei et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib4); Kojima et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib5)]。因此,**思维链优化**已成为增强LLM推理能力的核心挑战。 尽管其重要性,目前大多数CoT工程仍然依赖手动、启发式或黑盒优化技术。这些方法存在数据效率低、对新推理任务或领域泛化能力差、以及可解释性有限等问题。针对这些问题,最近的研究探索了**自动CoT生成** [Zhang et al., 2022b (https://arxiv.org/html/2605.28842#bib.bib6)] 或**推理链搜索** [Liu et al., 2023 (https://arxiv.org/html/2605.28842#bib.bib23)],但这些方法仍然在静态优化机制下运作,缺乏多步推理和规划所固有的结构和动态。 在这项工作中,我们提出了一种新的视角:我们将思维链优化视为一个**规划**实例,其目标是迭代地优化推理链以最大化推理性能。受潜在世界建模和基于模型的强化学习的启发,我们引入了“思考即规划”(Thoughts-as-Planning),这是一个将学习到的潜在动态、基于邻近性的表示和多尺度推理链控制整合到统一规划流程中的框架。 我们方法的核心是一个**潜在世界模型** \(\hat{T}_{\theta}\),它模拟LLM如何响应修改后的推理链。我们将推理链和输出都嵌入到一个保持邻近性的空间中,使得可以通过基于相似性的目标进行规划。为了实现泛化和高效探索,我们将推理链建模为离散编辑动作的序列,并通过梯度搜索或强化学习在这个结构化的空间上学习一个规划策略。我们的框架自然支持多尺度抽象,允许推理链编辑发生在标记、推理步骤或结构级别。 我们在一组数学推理、常识推理和逻辑推理基准上评估了思考即规划。我们的结果表明,它在性能和数据效率上始终优于现有的CoT优化方法,并产生可解释的推理链轨迹,这些轨迹可以在不同的推理任务中重用或适应。 ##### 贡献。 我们的主要贡献是: - • 我们提出了 **思考即规划**,一种通过学习的潜在世界模型将思维链优化形式化为潜在空间规划的新颖框架。 - • 我们开发了一个**多尺度推理链控制策略**,该策略在统一框架内实现从标记级到结构级的编辑。 - • 我们提供了**理论分析**和详细的数学证明,证明我们规划框架的收敛性和最优性。 - • 我们通过大量实验证明,与现有基线相比,我们的方法提高了效率、鲁棒性和泛化性。 ### 1.1 思维链优化与推理增强 思维链(CoT)优化在无需完全微调的情况下增强LLM推理能力中起着核心作用。Wei 等人 [Wei et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib4)] 的开创性工作引入了CoT推理,证明逐步推理显著提高了复杂推理任务的性能。随后的研究探索了CoT优化的各个方面,包括自动CoT生成 [Zhang et al., 2022b (https://arxiv.org/html/2605.28842#bib.bib6)]、少样本CoT学习 [Kojima et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib5)] 和CoT蒸馏 [Fu et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib7)]。然而,CoT对推理链结构的敏感性 [Wei et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib4); Kojima et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib5)] 揭示了对推理步骤进行自动优化的需求。 最近的方法包括离散方法,如 AutoCoT [Zhang et al., 2022b (https://arxiv.org/html/2605.28842#bib.bib6)],它自动生成推理链,以及 CoT 优化框架 [Liu et al., 2023 (https://arxiv.org/html/2605.28842#bib.bib23)],通过启发式或进化方法搜索离散推理空间。另一方面,软推理嵌入 [Lester et al., 2021 (https://arxiv.org/html/2605.28842#bib.bib21); Li and Liang, 2021 (https://arxiv.org/html/2605.28842#bib.bib22)] 学习推理模式的连续表示,但通常缺乏可解释性。最近的推理合成框架 [Wang et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib26)] 从演示库构建推理链。与这些静态或无梯度方案不同,我们的工作将推理链编辑形式化为潜在模型上的动态决策过程,从而实现具有样本效率和可解释性的结构化规划。 ### 1.2 潜在世界模型与抽象推理 潜在世界模型因其无需直接观察即可模拟环境动态的能力,在强化学习和抽象推理中得到了广泛应用。Dreamer [Hafner et al., 2019 (https://arxiv.org/html/2605.28842#bib.bib14), 2020 (https://arxiv.org/html/2605.28842#bib.bib28)] 和 World Models [Ha and Schmidhuber, 2018 (https://arxiv.org/html/2605.28842#bib.bib27)] 将状态转换编码到紧凑的潜在空间中,以实现高效规划。受这些方法的启发,我们的潜在世界模型预测推理链编辑对下游推理结果的影响,从而将模拟与LLM查询解耦。 语言模型推理方面的最新进展引入了潜在空间抽象机制。潜在思想语言模型 [Kong et al., 2025 (https://arxiv.org/html/2605.28842#bib.bib12); Hoffman et al., 2023 (https://arxiv.org/html/2605.28842#bib.bib13)] 提出结构化潜在变量来编码思维链推理中的中间思想。这些模型学习在连续潜在空间中表示推理步骤,从而实现更高效的推理链优化。LTM 方法,如 Place Cells [Zhao et al., 2025 (https://arxiv.org/html/2605.28842#bib.bib1)],通过保持邻近性的转换核为导航和路径规划建模位置嵌入。其他人将此框架扩展到具身智能体 [Noh et al., 2025 (https://arxiv.org/html/2605.28842#bib.bib2)] 以及通过潜在策略梯度进行测试时自适应推理 [Li et al., 2025 (https://arxiv.org/html/2605.28842#bib.bib3)]。这些工作启发了我们为推理链规划构建多尺度潜在邻近空间。 ### 1.3 用于推理链与程序合成的强化学习 在思维链优化和LLM推理增强中使用强化学习已获得越来越多的关注。RLCoT [Deng et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib16)] 和 PPO 调优的推理模型 [Korbak et al., 2023 (https://arxiv.org/html/2605.28842#bib.bib17)] 将推理链优化形式化为 MDP 或基于偏好的奖励学习问题。DPO [Rafailov et al., 2024 (https://arxiv.org/html/2605.28842#bib.bib15)] 直接优化推理偏好,无需显式奖励建模。然而,现有的大多数工作将LLM视为黑盒环境,并未学习推理链的显式转换动态。相反,我们的方法学习了一个潜在动态模型并在此之上进行规划,从而实现更快的收敛和更好的泛化。其他相关工作,如 RE3 [Yang et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib29)],探索了带启发式探索的上下文RL,而我们的方法则提供了在结构化推理链程序上的、基于学习的模型规划。 ##### 作者的相关工作。 在平行的研究方向上,我们研究了高效的LLM推理与压缩 [Liu, 2024 (https://arxiv.org/html/2605.28842#bib.bib44); Liu and Yu, 2024 (https://arxiv.org/html/2605.28842#bib.bib46); Liu et al., 2025a (https://arxiv.org/html/2605.28842#bib.bib48)]、服务与KV缓存系统 [Liu and Yu, 2025c (https://arxiv.org/html/2605.28842#bib.bib52), 2026 (https://arxiv.org/html/2605.28842#bib.bib51)]、长上下文建模与可扩展文本语义 [Liu et al., 2026 (https://arxiv.org/html/2605.28842#bib.bib47); Liu and Yu, 2025a (https://arxiv.org/html/2605.28842#bib.bib50)]、自适应多任务训练 [Liu and Yu, 2025b (https://arxiv.org/html/2605.28842#bib.bib45)] 以及用于强化学习的经验驱动规划 [Liu et al., 2025b (https://arxiv.org/html/2605.28842#bib.bib49)]。这些努力是互补的:它们关注吞吐量、内存以及训练或RL机制,而本文则侧重于通过潜在世界模型和多尺度规划实现可解释的思维链优化。 ### 1.4 思维链研究现状与我们的贡献 自 Wei 等人 [Wei et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib4)] 引入思维链范式以来,它已显著演进。早期工作侧重于展示逐步推理在提高LLM复杂推理任务性能方面的有效性。Kojima 等人 [Kojima et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib5)] 表明,即使通过简单的推理策略也可以引出零样本推理,而 Zhang 等人 [Zhang et al., 2022b (https://arxiv.org/html/2605.28842#bib.bib6)] 则探索了自动生成推理链的方法。 最近的进展引入了更复杂的推理链优化方法。Fu 等人 [Fu et al., 2022 (https://arxiv.org/html/2605.28842#bib.bib7)] 提出了基于复杂度的推理,根据问题难度调整推理策略。潜在思想语言模型 [Kong et al., 2025 (https://arxiv.org/html/2605.28842#bib.bib12); Hoffman et al., 2023 (https://arxiv.org/html/2605.28842#bib.bib13)] 引入了推理步骤的结构化潜在表示,从而实现更高效的推理链操作。 我们的工作对该领域做出了以下几点关键贡献: - • **用于推理链的潜在世界模型**:与将推理链视为静态模板的先前工作不同,我们将推理过程建模为具有可学习转换动态的动态系统。这使我们能够预测推理链修改的效果,而无需大量的试错。 - • **多尺度推理链编辑**:我们引入了一个统一框架,用于在多个粒度上编辑推理链——从标记级修改到逻辑流程的结构性变化。这允许对推理策略进行更细微的优化。 - • **基于规划的优化**:我们将推理链优化形式化为一个规划问题,从而能够系统性地探索推理空间,而不是依赖启发式搜索或随机采样。 - • **可迁移的推理模式**:我们的潜在表示捕获了可重用的推理模式,这些模式可以跨不同的推理任务迁移,从而使得对新领域的适应更加高效。 这些贡献解决了现有CoT优化方法的关键局限性,特别是缺乏可解释性、泛化能力差以及探索策略效率低下。我们的方法为推理链优化提供了一个原则性框架,该框架可扩展到复杂的推理任务,同时保持可解释性和可迁移性。 ## 2 方法 我们提出了“思考即规划”(Thoughts-as-Planning),这是一个框架,将思维链优化形式化为在学习的潜在世界模型上的序列决策过程。我们的系统由四个关键组件组成:(1) 推理链状态编码器 \(h_{\phi}: \mathcal{S} \rightarrow \mathbb{R}^{d}\),(2) 潜在转换模型 \(\hat{T}_{\theta}: \mathbb{R}^{d} \times \mathcal{A} \rightarrow \mathbb{R}^{d}\),(3) 效用预测器 \(\hat{R}_{\psi}: \mathbb{R}^{d} \rightarrow \mathbb{R}\),以及 (4) 用于多步推理链编辑的规划模块。 ### 2.1 问题形式化 令 \(\mathcal{X}\) 表示推理任务输入空间,\(\mathcal{C}\) 表示推理链空间。对于给定的推理任务 \(x \in \mathcal{X}\),我们在 \(T\) 个优化步骤上迭代地优化一个推理链 \(c_{t} \in \mathcal{C}\),以生成最终版本 \(c_{T}\),该版本最大化来自下游推理性能的期望奖励 \(R(x, c_{T})\)。 我们将思维链优化形式化为一个马尔可夫决策过程(MDP)\((\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)\),其中: - • \(\mathcal{S} = \mathcal{X} \times \mathcal{C}\) 是状态空间,状态 \(s_{t} = (x, c_{t})\) - • \(\mathcal{A}\) 是推理链编辑操作的动作空间 - • \(\mathcal{P}(s_{t+1}|s_{t}, a_{t})\) 是转移动态(未知,通过潜在模型学习) - • \(\mathcal{R}(s_{t}, a_{t}) = R(x, c_{t+1}) - R(x, c_{t})\) 是奖励函数 - • \(\gamma \in [0, 1)\) 是折
相似文章
ThoughtFold: 通过内省偏好学习折叠推理链
ThoughtFold 提出了一种利用内省偏好学习的框架,旨在减少大型推理模型在思维链推理中的冗余探索,在 DeepSeek-R1-Distill-Qwen-7B 上实现了约 56% 的令牌减少,且准确率无损。
ACIL: 用于上下文学习的自动Chain-of-Thought
本文介绍了ACIL,一种自动Chain-of-Thought框架,通过生成和修剪推理链来增强上下文学习,从而提升LLM在复杂任务上的表现。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。
重新思考稠密顺序链:推理语言模型能够从稀疏、乱序的思维链中提取答案
来自联发科(MediaTek)和台湾国立大学的研究论文挑战了推理链必须稠密且按顺序排列的假设,展示了模型能够从稀疏、乱序且充满噪声的推理痕迹中提取答案。研究结果表明,答案提取具有鲁棒性且不依赖顺序,这可能为实现更高效、并行化的推理生成铺平道路。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。