HyperGuide:大型语言模型中高效多步推理的双曲引导方法

arXiv cs.AI 论文

摘要

本文提出HyperGuide方法,将推理进展提炼为双曲几何信号,以指导LLMs的逐步生成,从而无需显式树搜索即可提高多步推理效率。

arXiv:2605.24140v1 Announce Type: new 摘要:多步推理仍然是大型语言模型的一个核心挑战:单次生成效率高但准确性不足;树搜索方法探索多条路径但计算量大。我们通过将推理进展提炼为双曲几何信号来指导逐步生成,从而弥补这一差距。我们的方法基于一个结构观察:在组合推理树中,包含解的节点很少,而死胡同却呈指数级增多。双曲空间与此不对称性相匹配:靠近原点处体积紧凑,而向边界方向容量呈指数级扩张,因此到原点的距离自然编码了解答的接近程度,而角度分离则区分了需要不同下一步操作的分支。我们训练一个轻量级头部将LLM的隐藏状态投影到该空间中,然后在其自身的推理尝试上交互式地微调一个低秩适配器,以对注入的信号作出响应。在多个基准测试中,该几何信号带来了一致的提升,在更深推理链上的改进更大。我们的代码已公开在 https://github.com/yuyuliu11037/HyperGuide。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:05

# HyperGuide: 双曲引导用于大型语言模型中高效多步推理

来源: https://arxiv.org/html/2605.24140

Yuyu Liu  
Department of Computer Science  
Stony Brook University  

&Haotian Xu  
Department of Applied Mathematics and Statistics  
Stony Brook University  

&Yanan He  
Department of Computer Science  
Yale University  

&Sarang Rajendra Patil  
Department of Data Science  
New Jersey Institute of Technology  

&Mengjia Xu  
Department of Data Science  
New Jersey Institute of Technology  

&Tengfei Ma  
Department of Biomedical Informatics  
Stony Brook University  

###### 摘要

多步推理仍然是大型语言模型的核心挑战:单步生成效率高但准确性不足;树搜索方法探索多条路径但计算量巨大。我们通过将推理进展提炼为一个双曲几何信号来弥合这一差距,该信号可引导逐步生成。我们的方法基于一个结构性观察:在组合推理树中,包含解决方案的状态很少,而死胡同则呈指数级增长。双曲空间与这种不对称性相匹配,原点附近体积紧凑,向边界方向容量呈指数级扩展,因此到原点的距离自然地编码了解决方案的接近程度,而角度分离则区分了需要不同后续操作的分支。我们训练一个轻量级头部将LLM隐藏状态投影到该空间,然后在其自身的推理尝试上交互式地微调一个低秩适配器,以对注入的信号做出反应。在多个基准测试中,几何信号带来了一致的增益,在更深的推理链上改进更为显著。我们的代码公开在 https://github.com/yuyuliu11037/HyperGuide。

*关键字* 双曲嵌入 · LLM推理 · 模仿学习

## 1 引言

大型语言模型(LLM)已成为通用问题解决者,在数学推理、代码合成和长期规划等任务上展现出广泛的能力 (Brown et al., 2020 (https://arxiv.org/html/2605.24140#bib.bib36); Lightman et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib179); Jiang et al., 2026 (https://arxiv.org/html/2605.24140#bib.bib77); Valmeekam et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib33))。这些进展背后一个共同主线是**多步推理**:组合一系列中间推理步骤以得出单次前向传递无法产生的结果。可靠且高效地生成此类推理链仍然是一个核心挑战。单步方法如思维链提示 (Wei et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib187)) 成本低廉但准确性低;树搜索方法如思维树 (Yao et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib186)) 和通过规划推理 (Hao et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib70)) 通过探索多条推理路径提高了性能,但需要多次LLM前向传递。然而,这种权衡并非固有。树搜索的准确性优势很大程度上可归因于单步生成通常缺失的一类信息:从推理状态到正确解决方案的距离估计。这里,**状态**指的是推理树中的一个节点,即一个部分推理轨迹。关键问题是,这种接近度信号能否直接注入到单步生成中,从而省去显式搜索的成本。我们认为可以,因为状态分布具有非对称结构,使得接近度信息在几何上易于编码:少量生产性状态位于通向正确解决方案的路径上,且每个状态通常分支到多个解决方案路径。绝大多数状态是死胡同,从中无法通过任何操作序列达到目标。例如,在24点游戏搜索树中,99.4% 的终端叶节点是死胡同,而70.9% 的ProntoQA规则应用未能向目标结论推进。¹¹每个基准测试的每任务统计数据见附录表7 (https://arxiv.org/html/2605.24140#A2.T7)。

双曲空间天然适合这种不对称性。在这种几何中,体积向边界呈指数增长 (Nickel and Kiela, 2017 (https://arxiv.org/html/2605.24140#bib.bib364), 2018 (https://arxiv.org/html/2605.24140#bib.bib290)):原点附近区域紧凑,而外围提供指数扩展的容量。这与可达状态的数量结构相匹配:少数包含解决方案的状态仅需较小的中心区域,而呈指数增长的大量死胡同需要边界体积才能充分分离。到原点的距离因此直接作为解决方案接近程度的连续代理。同时,每个半径处的指数表面积提供了角度容量来分离结构不同的分支,因此具有相似接近度但下一步需求不同的状态仍然可以区分。

基于这一观察,我们提出一个流水线,将学习几何信号与学习根据该信号行动分开。在第一阶段,我们训练一个轻量级投影头,将冻结的LLM的隐藏状态映射到双曲空间,使得几何信号有意义。在第二阶段,我们微调一个低秩适配器,以根据注入的信号选择下一步操作,并在适配器自身的推理尝试上交互式训练,使其学会在生成过程中实际遇到的状态上使用该信号。在推理时,每个步骤边界仅增加一次通过小型投影头的前向传递成本。我们在涵盖算术、经典规划、约束满足和多跳演绎逻辑的一套推理基准上进行了评估。由于LoRA适配器与任务无关,单个适配器与廉价重训练的任务特定头部配对后,可在相关任务间迁移。

本文的主要贡献有三方面:

1. 我们确定了解决方案接近度与双曲几何之间的结构对应关系,并展示了如何将两者编码为一个单一的几何基元,在每个推理步骤直接注入语言模型的生成流中。
2. 我们提出了一个两阶段流水线,教导模型在单步生成过程中根据注入的几何信号行动,而无需在推理时调用搜索。
3. 在多个基准测试和三个开放权重骨干网络上,我们的方法在显著低于基于搜索的基线的推理成本下,带来了持续的准确性增益,在更深的推理链上改进更大。

## 2 相关工作

### 2.1 LLM推理

单步提示方法如思维链 (Wei et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib187))、自一致性 (Wang et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib185)) 和由浅入深 (Zhou et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib184)) 无法修正早期错误,而基于搜索的方法如思维树 (Yao et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib186)) 和思维图 (Besta et al., 2024 (https://arxiv.org/html/2605.24140#bib.bib53)) 以显著推理成本恢复前瞻。另一条并行的工作线使用学习的验证器 (Lightman et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib179); Wang et al., 2024a (https://arxiv.org/html/2605.24140#bib.bib52); Uesato et al., 2022 (https://arxiv.org/html/2605.24140#bib.bib51)) 对中间步骤评分以指导束搜索或 best-of-n 解码,仍需要独立的评分头和多个候选扩展,而推理调优模型如 DeepSeek-R1 (DeepSeek-AI et al., 2025 (https://arxiv.org/html/2605.24140#bib.bib73)) 则通过强化学习内化长推理轨迹。另一条独立路线绕过离散解码并在连续潜在空间中推理:Coconut (Hao et al., 2025 (https://arxiv.org/html/2605.24140#bib.bib20)) 将最后一个隐藏状态作为下一个输入嵌入反馈;CODI (Shen et al., 2025 (https://arxiv.org/html/2605.24140#bib.bib21)) 通过自蒸馏将显式CoT压缩为连续思维;SoftCoT (Xu et al., 2025 (https://arxiv.org/html/2605.24140#bib.bib22)) 将来自固定辅助模型的软思维令牌注入LLM的表示空间。我们针对相同的瓶颈,但将搜索树的**状态分布**提炼为一个几何信号,模型在行内参考该信号,推理时无需独立的奖励模型或多候选扩展。

### 2.2 搜索蒸馏

将规划蒸馏为反应式策略在强化学习中由来已久:AlphaGo系列 (Silver et al., 2016 (https://arxiv.org/html/2605.24140#bib.bib50), 2017a (https://arxiv.org/html/2605.24140#bib.bib48), 2017b (https://arxiv.org/html/2605.24140#bib.bib49); Schrittwieser et al., 2020 (https://arxiv.org/html/2605.24140#bib.bib47)) 训练策略和价值网络模仿蒙特卡洛树搜索,Expert Iteration (Anthony et al., 2017 (https://arxiv.org/html/2605.24140#bib.bib46)) 和策略蒸馏 (Rusu et al., 2016 (https://arxiv.org/html/2605.24140#bib.bib45)) 形式化了迭代配方;我们在第二阶段采用DAgger (Ross et al., 2011 (https://arxiv.org/html/2605.24140#bib.bib54)),因其在蒸馏策略自身状态分布下的统计保证。在LLM设置中,基于价值引导的MCTS变体 (Liu et al., 2024 (https://arxiv.org/html/2605.24140#bib.bib44); Tian et al., 2024 (https://arxiv.org/html/2605.24140#bib.bib43); Zhang et al., 2024 (https://arxiv.org/html/2605.24140#bib.bib42)) 通过使用独立价值头或偏好模型的SFT或RL蒸馏rollout。我们的蒸馏信号不是学习得到的标量,而是从骨干网络自身隐藏状态的双曲嵌入中读取的几何量,为推理树的不对称奖励结构提供了有原则的几何先验。

### 2.3 双曲表示

双曲空间以低失真嵌入层次或树状数据,因为球体积随半径指数增长,匹配树的分支特性,如Poincaré (Nickel and Kiela, 2017 (https://arxiv.org/html/2605.24140#bib.bib364)) 和Lorentz (Nickel and Kiela, 2018 (https://arxiv.org/html/2605.24140#bib.bib290)) 嵌入所示,并具有理论保证 (Sa et al., 2018 (https://arxiv.org/html/2605.24140#bib.bib355))。一系列工作将标准神经网络层推广到Poincaré球和其他黎曼流形 (Octavian-Eugen Ganea et al., 2018 (https://arxiv.org/html/2605.24140#bib.bib105); Shimizu et al., 2021 (https://arxiv.org/html/2605.24140#bib.bib41); Chami et al., 2019 (https://arxiv.org/html/2605.24140#bib.bib419); Chen et al., 2022 (https://arxiv.org/html/2605.24140#bib.bib418)),应用涵盖视觉 (Khrulkov et al., 2020 (https://arxiv.org/html/2605.24140#bib.bib171))、语言 (Ganea et al., 2018 (https://arxiv.org/html/2605.24140#bib.bib363)) 以及最近的transformer/LLM注入 (Yang et al., 2026 (https://arxiv.org/html/2605.24140#bib.bib40))。Raj (2026 (https://arxiv.org/html/2605.24140#bib.bib25)) 探究了冻结的LLM隐藏状态,并表明双曲分类器比欧几里得分类器更稳健地恢复与推理相关的层次结构,但仅诊断性地使用该几何结构。据我们所知,双曲空间之前未被用于表示 **推理搜索树的状态分布**,也未将到原点的距离视为推理系统中解决方案接近度的固有代理。

## 3 方法

参照图注

图1:架构概览。**第一阶段(上)**:投影头 hφ 将推理树状态嵌入 Poincaré 球 Dⁿ_c,使得到原点的距离跟踪到解决方案的距离,成对测地距离跟踪树距离。**第二阶段(下)**:fθ 和 hφ 冻结,每个状态 s_t 编码为 z_t,并由 gψ 提升为虚拟令牌,在步骤 t+1 之前拼接进入残差流。LoRA 适配器在模型自身的 rollout 上训练,树状 Oracle 在每个状态提供目标操作。

### 3.1 预备知识

##### 任务设定。我们将多步推理定义为一个在文本状态上的确定性、有限视野决策过程 (Yao et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib186); Hao et al., 2023 (https://arxiv.org/html/2605.24140#bib.bib70)):从初始状态 s₀ 和目标 g 出发,允许的单步操作 A(s) 通过确定性转移 δ 生成一个搜索树 T_{s₀,g}。我们记 d(s) 为状态 s 的**到解决方案的距离**,定义为从 s 到 T_{s₀,g} 中成功叶节点的最小 BFS 边距离,当没有成功轨迹经过 s 时记为 ∞。有限距离标记了相对较少的包含解决方案的状态,而 ∞ 标记了指数级多的死胡同,这种不对称性激励了下面的双曲公式。

##### Poincaré 球。我们在曲率为 -c (c > 0) 的 Poincaré 球中工作,Dⁿ_c = { x ∈ Rⁿ : c‖x‖² < 1 },测地距离为 d_D(x,y) = (1/√c) cosh⁻¹( 1 + 2c‖x-y‖² / ((1-c‖x‖²)(1-c‖y‖²)) ). (1)

Dⁿ_c 中的球体积随半径指数增长,这是双曲空间以低失真嵌入树的几何原因 (Nickel and Kiela, 2017 (https://arxiv.org/html/2605.24140#bib.bib364); Sa et al., 2018 (https://arxiv.org/html/2605.24140#bib.bib355))。到原点的距离简化为 d_D(0,x) = (2/√c) tanh⁻¹(√c‖x‖),是 ‖x‖ 的单调函数,当 x 接近边界时发散。为了将欧几里得隐藏状态提升到流形上,我们使用原点的指数映射 (Octavian-Eugen Ganea et al., 2018 (https://arxiv.org/html/2605.24140#bib.bib105)):exp₀ᶜ(v) = tanh(√c‖v‖) v / (√c‖v‖)。

### 3.2 训练流水线

图1 (https://arxiv.org/html/2605.24140#S3.F1) 总结了端到端流水线。我们的方法将问题分解为两个问题:在每个推理边界应呈现**什么**信息,以及模型应**如何**消费该信息。第一阶段回答**什么**问题,通过训练投影头 hφ 将每个状态映射到 Poincaré 球中一个有意义的点;有了这个几何结构后,第二阶段回答**如何**问题,通过训练一个作用于 z_t 的 LoRA 适配器。

##### 第一阶段:双曲空间构建(图1 (https://arxiv.org/html/2605.24140#S3.F1) 上)。由于推理过程通过一种独特结构与双曲空间共鸣——包含解决方案的状态很少但相互连接,而死胡同很多但彼此孤立——我们打算利用 Poincaré 球来建模这种属性。为了让基础模型有一个有意义的几何信号可供行动,我们首先单独使用从枚举推理树获得的监督来训练投影头 hφ: Rᵈ → Dⁿ_c。由 hφ

相似文章

提示引导的多样化策略优化用于LLM推理

arXiv cs.CL

本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。