在困难处采样:通过熵引导的幂采样增强基础模型推理

arXiv cs.LG 论文

摘要

本文提出熵引导幂采样(EGPS),一种无需训练和验证器的采样方法,提高了幂采样在增强基础语言模型推理中的效率。与标准Metropolis-Hastings采样相比,EGPS在MATH500、HumanEval和GPQA等基准测试上达到最佳或并列最佳准确率,同时实现高达12.6倍的加速。

arXiv:2606.09926v1 公告类型: 新 摘要:从序列级幂分布 $p^\alpha$ 中采样,无需任何参数更新即可从基础语言模型中引出强化学习级别的推理能力,但标准的Metropolis-Hastings(MH)采样器(一种马尔可夫链蒙特卡洛(MCMC)采样器)既昂贵又混合缓慢。我们将这两个问题归因于结构上的不匹配:$p^\alpha$ 主要是在一组稀疏的、空间聚类的高熵决策点处偏离 $p$,而MH提出的重采样位置在前缀中均匀分布——在近简并条件上浪费计算,同时在模式发散的地方混合不足。我们提出熵引导幂采样(EGPS),这是一种无需训练和验证器的采样器,它从已经在前向传播中的token级熵重新推导其提议分布。EGPS跳过确定性块,将每个MCMC移动定位到高熵邻域,并在决策点应用多重尝试Metropolis——使得采样成本随\emph{熵质量而非序列长度}扩展。在Qwen2.5-Math-7B上,EGPS在所有三个基准测试(MATH500 $75.8\%$,HumanEval $62.2\%$,GPQA $42.4\%$)上达到最佳或并列最佳准确率,与MH基线相比,实际时间加速高达$12.6\times$。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:18

# 在困难处采样:通过熵引导的幂采样提升基模型推理能力

来源:https://arxiv.org/html/2606.09926

Hong Guo  
Hasso Plattner Institut  
hong\.guo@hpi\.de  

&Nianhui Guo  
GreenBit\.AI  
nianhui\.guo@greenbit\.ai  

Christoph Meinel  
German University of Digital Science  
christoph\.meinel@german\-uds\.de  

&Haojin Yang  
GreenBit\.AI  
haojin\.yang@greenbit\.ai  

###### 摘要  
从序列级幂分布 pαp^\{\alpha\} 中采样,无需任何参数更新即可激发基础语言模型的强化学习级推理能力。但标准的 Metropolis–Hastings (MH) ——一种马尔可夫链蒙特卡洛 (MCMC) 采样器——既昂贵又混合缓慢。我们将其归因于一个结构性错配:pαp^\{\alpha\} 主要在稀疏、空间聚集的高熵决策点上偏离 pp,而 MH 却沿前缀均匀地提议重采样位置——在近似确定的条件分布上浪费计算资源,同时在模式发散的精确位置欠混合。我们提出**熵引导的幂采样 (EGPS)**,一种无需训练且无需验证器的采样器,它从前向传播中已有的 token 级熵重新推导其提议。EGPS 跳过确定性块,将每个 MCMC 移动定位于高熵邻域,并在决策点应用多尝试 Metropolis——使采样成本随**熵质量而非序列长度**扩展。在 Qwen2\.5\-Math\-7B 上,EGPS 在所有三个基准测试 (MATH500 75\.8%75\.8\%, HumanEval 62\.2%62\.2\%, GPQA 42\.4%42\.4\%) 上达到最佳或并列最佳准确率,且相对 MH 基线实现高达 12\.6×12\.6\times 的墙钟加速。

# 在困难处采样:通过熵引导的幂采样提升基模型推理能力

Hong Guo  
Hasso Plattner Institut  
hong\.guo@hpi\.de  

Nianhui Guo  
GreenBit\.AI  
nianhui\.guo@greenbit\.ai  

Christoph Meinel  
German University of Digital Science  
christoph\.meinel@german\-uds\.de  

Haojin Yang  
GreenBit\.AI  
haojin\.yang@greenbit\.ai  

参照标题  
图 1:推理轨迹的实证熵特征。(a) 合并的 MATH500、HumanEval、GPQA-Diamond 上每个答案的总熵直方图,按正确性分隔。(b) 每个数据集一个选定答案的每个 token 熵 HtH\_t。(c) 每个块最大熵 maxtHt\max\_t H\_t 的直方图,分别展示每个数据集。

## 1 引言

强化学习 (RL) 后训练已成为增强大语言模型 (LLM) 推理能力的常见方法,但成本高昂:通常需要精心整理的数据、复杂的训练流程和自动化验证器。越来越多的研究工作 (He et al., 2025 (https://arxiv.org/html/2606.09926#bib.bib17); Yue et al., 2025 (https://arxiv.org/html/2606.09926#bib.bib18); Song et al., 2025 (https://arxiv.org/html/2606.09926#bib.bib26)) 从不同角度认为,RL 后训练主要执行**分布锐化**:它并非引入基模型原本缺失的推理能力,而是将概率质量重新分配到基模型已经偏好的推理轨迹上。这一视角启发了一种自然的替代方案:在推理时直接锐化基模型的输出分布,从而绕过昂贵的训练过程。沿此方向,Karan and Du (2025 (https://arxiv.org/html/2606.09926#bib.bib8)) 提出幂采样,使用 Metropolis–Hastings (MH) 从序列级幂分布 pαp^\{\alpha\} (α>1\alpha>1) 中采样。据报告,无需任何参数更新,它在 MATH500 (Lightman et al., 2024 (https://arxiv.org/html/2606.09926#bib.bib20)) 等基准测试上达到了与 GRPO (Shao et al., 2024 (https://arxiv.org/html/2606.09926#bib.bib22)) 相当的性能。然而,幂采样的实用性受限于其 MH 采样器的效率。MH 逐块生成序列:每生成一个块后,它从整个已生成前缀中均匀选择一个重采样起始点,并从该点重新生成到当前块的结尾(图 2 (https://arxiv.org/html/2606.09926#S2.F2)(a))。这种均匀提议隐含地将每个 token 视为同等值得重采样。然而推理轨迹远非均匀:先前工作表明,其质量往往由一小部分关键 token 驱动,这些 token 通常表现出高熵 (Lin et al., 2024 (https://arxiv.org/html/2606.09926#bib.bib12); Wang et al., 2026 (https://arxiv.org/html/2606.09926#bib.bib14); Yang et al., 2025 (https://arxiv.org/html/2606.09926#bib.bib13)); 特别地,错误答案通常比正确答案具有更高的总熵 (Yang et al., 2025 (https://arxiv.org/html/2606.09926#bib.bib13)),我们在实证中也观察到了这一模式(图 1 (https://arxiv.org/html/2606.09926#S0.F1)a)。我们进一步刻画了 token 级和块级的熵分布,揭示了高熵位置的两个结构性属性。第一,稀疏性:高熵位置仅占序列的一小部分。第二,空间聚集性:高熵位置被长段近似确定的 token 分隔开,形成空间上局部的簇(图 1 (https://arxiv.org/html/2606.09926#S0.F1)b)。这两个属性的直接后果是,很大一部分块始终处于低熵状态(HumanEval 上为 56\.7%56\.7\%,图 1 (https://arxiv.org/html/2606.09926#S0.F1)c)。这些观察表明,MH 的均匀提议既样本效率低下,又在结构上错位:它过度采样确定位置,而欠探索驱动质量的稀疏决策点。

受这些观察启发,我们提出**熵引导的幂采样 (EGPS)**,它使 MH 提议与推理轨迹的熵结构对齐。EGPS 在两个互补的粒度上运行。在块级,它利用空间聚集性通过一个低熵门控:任何最大 token 熵低于阈值 θ\theta 的块被跳过,将采样预算从近似确定区域转移开。在 token 级,它利用稀疏性,以与 token 熵成比例的概率抽取重采样点,将预算集中在驱动质量的稀疏高熵簇上。为了在这些关键位置进一步扩大探索,我们将单提议 MH 步骤替换为多尝试 Metropolis (MTM),它将每步的提议池从一个候选扩展到多个。在核心设计之外,我们分析了重采样搜索范围对准确率的影响,并在 vLLM 推理框架内提供了 EGPS 的完整实现。我们的主要贡献如下:

- (i) 我们在 token 级和块级实证刻画了基模型推理轨迹的熵结构,识别出高熵位置的两个结构性属性:稀疏性和空间聚集性。这些属性指向一小部分关键决策点,它们塑造了推理质量,从而激励一种将努力重新定向到这些点、同时提升推理效率和准确率的采样过程。
- (ii) 我们提出 EGPS,一种无需训练且无需验证器的幂采样器,用于在推理时激发基模型的推理能力,为 RL 后训练提供一种实用替代方案。EGPS 集成了三种机制:熵触发的块跳过、熵加权的起始点采样和多尝试 Metropolis (MTM)。我们进一步分析了重采样搜索范围的影响,并提供了 EGPS 的完整 vLLM 实现。
- (iii) 在三个基模型 (Qwen2\.5\-Math\-7B, Qwen2\.5\-7B, Phi\-3\.5\-mini\-instruct) 和三个推理基准 (MATH500, HumanEval, GPQA) 上,EGPS 在总共 9 个模型-基准组合中的 5 个上取得最佳或并列最佳准确率——其中 Qwen2\.5\-Math\-7B 在所有三个基准上达到最佳或并列最佳 (MATH500 75\.8%75\.8\%, HumanEval 62\.2%62\.2\%, GPQA 42\.4%42\.4\%)——并且在相同 vLLM 框架内,相比 MH 幂采样基线实现了高达 12\.6×12\.6\times 的墙钟加速。

## 2 相关工作

### 2\.1 高效的幂采样

Karan and Du (2025 (https://arxiv.org/html/2606.09926#bib.bib8)) 将推理时推理增强形式化为通过块 Metropolis–Hastings 从序列级幂分布 pαp^\{\alpha\} 采样。他们的关键见解是,pαp^\{\alpha\} 在选择每个 token 时隐式考虑了未来路径的似然,这是 token 级低温采样无法复现的全局规划效应。该方法在 MATH500 上匹配 GRPO,无需训练或验证器,但其均匀重采样方案要求在每个块处重新生成越来越长的后缀,导致大量计算开销。后续工作沿两个方向改进幂采样。在效率方面,Ji et al. (2026 (https://arxiv.org/html/2606.09926#bib.bib9)) 表明幂分布的条件分布可分解为按未来质量因子缩放的低温分布,从而实现了基于展开的 token 级近似,完全避开了迭代马尔可夫链蒙特卡洛 (MCMC)。Azizi et al. (2026 (https://arxiv.org/html/2606.09926#bib.bib10)) 将串行 MH 链替换为批量并行的顺序蒙特卡洛 (SMC),证明 τ=1/α\tau=1/\alpha 是最小方差仅前缀提议,并将瓶颈转移到 GPU 友好的批量计算上。Abdulloh (2025 (https://arxiv.org/html/2606.09926#bib.bib11)) 根据局部熵调整 MCMC 块大小,为不确定区域分配更细粒度。这些方法降低了每步成本或调整了计算分配策略,但计算仍分布在所有 token 位置上。在采样目标方面,Markovic-Voronov et al. (2026 (https://arxiv.org/html/2606.09926#bib.bib19)) 将 pαp^\{\alpha\} 与外部奖励势函数结合,定义了一个奖励增强的目标分布,并开发了基于 SMC 的采样算法,但对外部奖励模型的依赖限制了其仅适用于有可靠验证器的任务。与上述方法不同,提出的 EGPS 仅使用前向传播中已有的条件熵信号,通过熵触发的块跳过和熵引导的块内重采样,选择性地将 MCMC 预算集中在存在有意义决策分歧的稀疏位置上,无需任何外部模型。这种选择性分配策略原则上可与上述方法组合使用。

### 2\.2 推理中的关键 Token 与局部不确定性

EGPS 的选择性分配策略建立在一个实证发现上:推理困难集中在少数 token 位置上。Lin et al. (2024 (https://arxiv.org/html/2606.09926#bib.bib12)) 通过大规模展开识别关键 token,并利用该发现进行 token 级对比偏好优化 (cDPO)。Wang et al. (2026 (https://arxiv.org/html/2606.09926#bib.bib14)) 表明高熵 token 作为“分叉 token”将模型导向不同的推理路径。Yang et al. (2025 (https://arxiv.org/html/2606.09926#bib.bib13)) 发现正确和错误轨迹之间的熵差由一小部分高熵 token 驱动,并提出 MTI 在这些位置选择性地应用无分类器引导 (CFG) (Sanchez et al., 2023 (https://arxiv.org/html/2606.09926#bib.bib25))。Fu et al. (2025 (https://arxiv.org/html/2606.09926#bib.bib15)) 从置信度角度出发,使用局部对数概率提前终止低质量轨迹 (DeepConf)。先前工作研究了相关信号——因果影响 (Lin et al., 2024 (https://arxiv.org/html/2606.09926#bib.bib12))、token 熵 (Wang et al., 2026 (https://arxiv.org/html/2606.09926#bib.bib14); Yang et al., 2025 (https://arxiv.org/html/2606.09926#bib.bib13)) 和对数概率置信度 (Fu et al., 2025 (https://arxiv.org/html/2606.09926#bib.bib15))——但仅用于训练、解码或单遍采样。EGPS 将此信号类别引入 MCMC 幂采样,在此每个跳过的块节省的是多次 MCMC 迭代而非单次前向传播。

参照标题  
图 2:MH 幂采样与 EGPS 的比较。(a) MH 幂采样逐块生成序列;每块之后,它从已生成前缀中均匀选择一个起始点,并从此处重新生成到块尾。(b) EGPS 将均匀提议替换为双粒度、熵引导的提议:块级低熵门控跳过近似确定的块,token 级熵加权分布将起始点集中在高熵位置上。然后,多尝试 Metropolis (MTM) 将每步提议池从一个候选扩展到多个。

## 3 方法

### 3\.1 预备知识

#### 幂分布与 MH 采样。
设 X\mathcal{X} 为有限 token 词汇表,pp 为自回归语言模型,其因子化为 p(x0:T)=∏t=0Tp(xt∣x<t)p(x_{0:T}) = \prod_{t=0}^T p(x_t \mid x_{<t}),其中 x0x_0 为起始标记。对于 α>1\alpha > 1,幂分布给每个序列分配与 p(x0:T)αp(x_{0:T})^\alpha 成比例的概率:
pα(x0:T)∝p(x0:T)α.(2)p^\alpha(x_{0:T}) \propto p(x_{0:T})^\alpha. \tag{2}
较大的 α\alpha 将质量集中在高似然序列上;α=1\alpha=1 恢复基模型。从 pαp^\alpha 采样**不等同于**低温采样 (τ=1/α\tau=1/\alpha),后者是对每个条件分布 p(xt∣x<t)p(x_t \mid x_{<t}) 取指数幂;二者仅在序列长度为 1 时重合 (Karan and Du, 2025 (https://arxiv.org/html/2606.09926#bib.bib8))。

从 pαp^\alpha 采样的一个实用 MCMC 方案是块 MH。给定一个正被构建的序列 x0:(k+1)Bx_{0:(k+1)B}(其中 BB 为块大小),该方案随机选择 m∈[1,(k+1)B]m \in [1,(k+1)B],生成一个提议 xm:(k+1)B′∼p(⋅∣x<m)x'_{m:(k+1)B} \sim p(\cdot \mid x_{<m}),并以概率
AMH(x→x′)=min(1,p(xm:(k+1)B′)α/p(xm:(k+1)B)α)(3)A_{\mathrm{MH}}(x \to x') = \min\left(1, p(x'_{m:(k+1)B})^\alpha / p(x_{m:(k+1)B})^\alpha\right) \tag{3}
接受它,否则保留原有后缀。整个序列由多个这样的块构建而成。关键细节是,提议分布 q(m)q(m) 在整个前缀上均匀,即 q(m)=1/[(k+1)B]q(m) = 1/[(k+1)B]——这种均匀性使得很大一部分采样预算花费在确定性、低熵区域上。

#### 熵。
对于给定的前缀 x<tx_{<t},下一个 token 的条件分布 p(⋅∣x<t)p(\cdot \mid x_{<t}) 的熵定义为
Ht=H(p(⋅∣x<t))=−∑x∈Xp(x∣x<t)logp(x∣x<t).(4)H_t = H(p(\cdot \mid x_{<t})) = -\sum_{x \in \mathcal{X}} p(x \mid x_{<t}) \log p(x \mid x_{<t}). \tag{4}
熵 HtH_t 量化了在 t 步处的预测不确定性;高 HtH_t 表示模型对多个候选 token 分配了显著的置信度,对应于一个真正的决策点。EGPS 使用相同的前向传播中计算出的相同条件分布,因此熵计算没有额外开销。

#### 推理链。
注意上面的幂分布定义可推广到任意序列,包括通常用于推理任务的长链推理链。给定一个推理提示,网络必须生成一长串 token x1,...,xDx_1, ..., x_D,其中 DD 为生成步数。EGPS 通过块级处理对此进行管理,并在推理的整个过程中使用峰值熵来引导采样。

### 3\.2 熵引导的幂采样

基于第 1 节 (https://arxiv.org/html/2606.09926#S1) 中识别的两个结构性属性,即高熵位置的稀疏性和空间聚集性,MH 幂采样将其大部分计算花费在确定性的低熵区域上。如图 2 (https://arxiv.org/html/2606.09926#S2.F2) 所示,EGPS 使用熵将 MCMC 预算集中在决策实际发生的地方,并将单提议 MH 步骤升级为多尝试 Metropolis (MTM),以拓宽每步的搜索。本节描述该算法 (1 (https://arxiv.org/html/2606.09926#alg1)) 并分析其计算成本。

#### 生成与触发。
EGPS 将目标序列划分为大小为 BB 的块,并顺序生成。对于每个块,EGPS 仅当块内 maxtHt>θ\max_t H_t > \theta 时才进入 MCMC 精化循环;否则跳过该块。低熵块很少包含决策点,因此跳过它们可节省采样预算。

#### 位置选择。
一旦块触发精化,循环内的每个 MCMC 步骤必须选择一个重采样起始点 mm。EGPS 从候选范围 S⊆[1,(k+1)B]S \subseteq [1, (k+1)B] 中抽取 mm,其两个极端是 S=[kB+1,(k+1)B]S = [kB+1, (k+1)B](局部)和 S=[1,(k+1)B]S = [1, (k+1)B](全局)。在 SS 内,EGPS 将候选范围缩小到高熵集 {t∈S:Ht>θ}\{t \in S : H_t > \theta\},并从中以根据每个候选的局部最大熵加权的概率进行采样。此加权进一步将预算集中在最不确定的位置。候选集通过沿序列滑动大小为 δ\delta 的窗口构建:若窗口包含任何高熵 token,则其左端点被包含。

#### 多提议。
在选定的 mm 处,EGPS 从提议分布 qq 中抽取 KK 个草案提议 xj′\mathbf{x}'_j(j=1,...,Kj=1, ..., K),并计算每个草案的权重:
wj=p(xj′)αq(xj′)⋅∏i=1,i≠jK(1−p(xi′)αq(xi′))(6)w_j = \frac{p(\mathbf{x}'_j)^\alpha}{q(\mathbf{x}'_j)} \cdot \prod_{i=1, i \neq j}^K \left(1 - \frac{p(\mathbf{x}'_i)^\alpha}{q(\mathbf{x}'_i)}\right) \tag{6}
其中 pp 为前向 logits,qq 为用于提议的辅助分布(如基模型本身或低温分布)。然后,以与 wj/Ww_j/W 成比例的概率选择一个草案 j∗j^*,其中 W=∑jwjW = \sum_j w_j,并以 MTM 接受概率:
AMTM=min(1,W)(7)A_{\mathrm{MTM}} = \min(1, W) \tag{7}
接受它。与 MH 相比,MTM 在每一步探索多个候选,在这些候选间分配权重,并以接受率 min(1,W) 接受,其中权重 W 捕捉了候选集的总质量。当所有草案都具有高概率时,W 较大,接受概率高;否则,接受概率低,状态保持不动。

算法 1 熵引导的幂采样 (EGPS)

**输入**: 基模型 p(⋅)p(\cdot), 块大小 BB, 阈值 θ\theta, 邻域半径 δ\delta, 候选数 KK, 搜索模式 SS(局部或全局)

**输出**: 序列 x1:Tx_{1:T}

1: for k=0,1,...,⌊T/B⌋k = 0, 1, ..., \lfloor T/B \rfloor do  
2:   生成块 xkB+1:(k+1)Bx_{kB+1:(k+1)B}  
3:   if maxt∈[kB+1,(k+1)B]Ht≤θ\max_{t \in [kB+1, (k+1)B]} H_t \le \theta then  
4:       continue  
5:   end if  
6:   for step = 1,...,M do  
7:       采用搜索模式 SS,构造高熵候选集  
8:       从 SS 中抽取 w.r.t. 熵质量的起始点 mm  
9:       提取邻域 [m, (k+1)B]  
10:      计算该邻域熵集合  
11:      从候选集 SS 中抽取高熵位置  
12:      从候选位置集 CC 中采样 mm(权重 ∝ 局部最大熵)  
13:      从 qq 中抽取 xj′\mathbf{x}'_j (j=1,...,Kj=1,...,K),重采样 [m, (k+1)B]  
14:      计算权重 {wj}\{w_j\} (式 6); W←∑jwjW \leftarrow \sum_j w_j  
15:      j∗∼Categorical(w1/W,...,wK/W)j^* \sim \mathrm{Categorical}(w_1/W, ..., w_K/W)  
16:      u∼Uniform(0,1)u \sim \mathrm{Uniform}(0,1)  
17:      if u≤AMTMu \le A_{\mathrm{MTM}} (式 7) then  
18:          xm:(k+1)B←xj∗′x_{m:(k+1)B} \leftarrow \mathbf{x}'_{j^*}  
19:      end if  
20:   end for  
21: end for  
22: return (x1,...,xT)(x_1, ..., x_T)

相似文章

ARBITER: 推理轨迹盆地与测试时采样中的多数投票失败

arXiv cs.LG

本文发现,语言模型在测试时采样中的推理轨迹会聚集成‘推理盆地’,当主导盆地错误时,会导致多数投票失败。本文提出了ARBITER,一种与模型无关的方法,利用模型自身输出和隐藏状态中的保守加性证据,无需外部数据即可提高准确性。

用于LEGO空间物理推理的高效样本后训练

arXiv cs.LG

本文发现了一种基于LLM的LEGO组装生成中的失败模式PhysHack,并提出PVPO,一种结合基于模型的数据选择的高效样本强化学习方法,仅使用一小部分训练数据即可改善物理和语义对齐。