LaTER：通过潜在探索与显式验证实现高效的测试时推理

arXiv cs.CL 2026/05/11 04:00 论文

摘要

本文介绍了 LaTER，一种两阶段推理范式，它将潜在探索与显式思维链（Chain-of-Thought）验证相结合，从而在保持准确率的同时，降低大型语言模型的标记使用量并提升效率。

arXiv:2605.07315v1 公告类型：新论文摘要：思维链（CoT）推理能够提升大型语言模型（LLM）在处理困难任务时的表现，但由于每个中间步骤都必须生成为离散标记，这也导致推理成本高昂。潜在推理通过传播连续状态来减少可见标记的生成，然而，用潜在计算替代显式推导可能会损害那些需要符号验证的任务。我们提出了“先潜在后显式推理”（LaTER），这是一种两阶段范式：首先在连续的潜在空间中进行有限探索，然后切换至显式思维链以进行验证并生成答案。在无训练实例化中，LaTER 将最后一层的隐藏状态投影回输入嵌入空间，保留潜在 KV 缓存，并利用熵和模型原生停止标记探测来决定何时切换。我们发现，强大的推理模型在此接口下已经表现出结构化的潜在轨迹。在 Qwen3-14B 上，无训练的 LaTER 在多个基准测试中将总标记使用量减少了 16%-32%，同时在大多数测试中保持或提高了准确率；例如，在 AIME 2025 任务中，它将标记使用量从 15,730 减少到 10,661，准确率从 70.0% 提升至 73.3%。我们进一步构建了 Latent-Switch-69K，这是一个监督语料库，将精简的解题直觉与缩短的显式推导配对。通过潜在 rollout 和停止监督进行微调带来了额外的增益：训练后的 LaTER 在 AIME 2025 上达到了 80.0% 的准确率，比标准 CoT 基线高出 10.0 个百分点，同时标记使用量减少了 33%。我们的代码、数据和模型可在 https://github.com/TioeAre/LaTER 获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:00

# 通过潜在探索和显式验证实现高效的测试时推理

来源: https://arxiv.org/html/2605.07315

Xuan Li<sup>1</sup>, Yining Wang<sup>2</sup>, Yuchen Liu, Guanjun Liu<sup>1</sup>, Delai Qiu<sup>2</sup>, Shengping Liu<sup>2</sup>, Jiaen Liang<sup>2</sup>, Wei Huang<sup>2</sup>, Jun Yu<sup>1,2,2,2</sup>（通讯作者）, Junnan Zhu<sup>3,2,2,2</sup>（通讯作者）

<sup>1</sup>中国科学技术大学, <sup>2</sup>云知声人工智能科技有限公司, <sup>3</sup>中国科学院自动化研究所机器学习智能系统实验室

[email protected], [email protected]

###### 摘要

思维链（Chain-of-thought, CoT）推理提高了大型语言模型（LLMs）在困难任务上的表现，但也使得推理变得昂贵，因为每个中间步骤都必须生成为离散 token。潜在推理通过传播连续状态来减少可见 token 的生成，然而，用潜在计算取代显式推导可能会损害那些需要符号检查的任务。我们提出了 **LaTER**（Latent-Then-Explicit Reasoning，先潜在后显式推理），这是一种两阶段范式：首先在连续潜在空间中进行有界探索，然后切换到显式 CoT 进行验证和答案生成。在免训练的实现中，LaTER 将最后层的隐藏状态投影回输入嵌入空间，保留潜在 KV 缓存，并利用熵和模型原生停止 token 探测来决定何时切换。我们发现，强推理模型在这种接口下已经表现出结构化的潜在轨迹。在 Qwen3-14B 上，免训练的 LaTER 在多个基准测试中将总 token 使用量减少了 16%–32%，同时在大多数测试中匹配或提高了准确率；例如，它将 AIME 2025 的准确率从 70.0% 提升至 73.3%，同时将 token 数从 15,730 减少到 10,661。我们进一步构建了 **Latent-Switch-69K**，这是一个监督语料库，将压缩的解题直觉与缩短的显式推导配对。通过潜在 rollout 和停止监督进行微调带来了额外的收益：训练后的 LaTER 在 AIME 2025 上达到了 80.0% 的准确率，比标准 CoT 基线高出 10.0 分，同时 token 使用量减少了 33%。我们的代码、数据和模型可在 https://github.com/TioeAre/LaTER 获取。

## 1 引言

CoT 提示是一种简单且有效的方法，可提高 LLM 的推理能力 [20](https://arxiv.org/html/2605.07315#bib.bib1)。通过在最终答案之前生成中间推导步骤，CoT 提高了在数学、科学和代码任务上的性能 [7](https://arxiv.org/html/2605.07315#bib.bib2)。其主要缺点在于成本。强推理模型通常会产生较长的可见轨迹，而每一个额外的 token 都会增加延迟、内存流量和注意力计算 [19](https://arxiv.org/html/2605.07315#bib.bib3)。当模型花费大量 token 进行试探性探索、语法搭建或丢弃的解决方案路径时，尤其是在达到稳定推导之前，这种成本尤其高。因此，近期工作研究了连续潜在空间中的推理 [8](https://arxiv.org/html/2605.07315#bib.bib4), [24](https://arxiv.org/html/2605.07315#bib.bib6)。模型可以在每个推理步骤中反馈隐藏状态或软嵌入作为下一个输入，而不是采样可见 token，这可以通过解析映射（如伪逆投影 [28](https://arxiv.org/html/2605.07315#bib.bib5)）或学习到的投影器 [21](https://arxiv.org/html/2605.07315#bib.bib27) 实现，并且仅在最终答案阶段解码离散的可读 token。这可以显著减少可见 token 的生成，并已显示出令人瞩目的效率增益 [8](https://arxiv.org/html/2605.07315#bib.bib4), [23](https://arxiv.org/html/2605.07315#bib.bib9), [27](https://arxiv.org/html/2605.07315#bib.bib8)。

然而，纯潜在推理也有一个明显的弱点：当问题需要仔细的符号操作、显式检查或精确的答案格式时，完全用潜在计算取代 CoT 可能会降低在 MATH-500 和 AIME 等困难基准测试上的准确率 [5](https://arxiv.org/html/2605.07315#bib.bib10), [18](https://arxiv.org/html/2605.07315#bib.bib7), [16](https://arxiv.org/html/2605.07315#bib.bib11)。这表明潜在推理和离散推理不应被视为互斥的替代方案。更自然的分工是使用连续计算进行早期探索，并保留离散 token 用于验证。人类求解者通常以类似的方式行事：他们可能首先在脑海中搜索计划，然后才写下逐步的解决方案。我们仅将此作为计算设计的动机。核心问题是 LLM 是否可以将部分测试时计算花费在高带宽的潜在状态中，然后在精确符号推理最有价值时返回到显式 CoT。

我们提出了 **LaTER**（Latent-Then-Explicit Reasoning），一种将探索与验证分离的混合推理范式。给定提示，LaTER 首先执行有界潜在 rollout。在每个潜在步骤中，最后层的隐藏状态被映射回输入嵌入空间并重新用作下一个输入，而无需提交可见 token。然后，模型切换到普通 token 生成，同时保留潜在阶段的 KV 缓存，因此显式推导是基于前面的潜在轨迹进行的，而不是从头开始。

我们在两种设置下研究 LaTER。首先，我们表明该接口无需额外训练即可有用。免训练版本使用基于潜在熵和解码停止 token 探测的简单自适应切换。在 Qwen3-14B 上，这已经将 AIME 2025 的准确率从 70.0% 提高到 73.3%，同时将平均 token 使用量从 15,730 减少到 10,661，并将 MATH-500 的准确率从 93.4% 提高到 97.2%，token 减少了 17%。其次，我们在 **Latent-Switch-69K** 上训练了一个 LaTER 模型，这是一个旨在教模型如何在显式推理之前分配潜在探索的数据集。训练后的模型在 AIME 2025 上达到了 80.0%，比标准 CoT 基线提高了 10.0 分，同时 token 使用量减少了 33%。

我们的贡献有三点。（i）我们引入了一种先潜在后显式的推理接口，保留了潜在 KV 缓存，并将潜在计算转化为显式验证的前奏。（ii）我们确定了免训练的潜在切换信号，包括终止 token 探测和熵动态，表明预训练推理模型已经可以支持结构化的潜在 rollout。（iii）我们构建了 Latent-Switch-69K 并训练了一个 LaTER 模型，该模型在数学、编码和知识密集型推理基准测试中改进了准确率-效率权衡。

## 2 免训练的 LaTER

我们首先问，预训练推理模型是否可以在没有任何任务特定训练的情况下从先潜在后显式的过程中受益。此设置将推理时接口与监督适应隔离开来。我们表明，强推理模型可以执行几个连续潜在步骤，在 KV 缓存中保留这些步骤，然后将累积状态转换为 token 使用量更少的显式 CoT。我们还表明，固定的潜在 horizon（视界）是脆弱的，这促使基于模型自身潜在动态的自适应切换。

### 2.1 预备知识和符号

> **图 1 标题**: 免训练 LaTER 概述。给定用户提示，模型首先进入潜在推理阶段，其中最后层的隐藏状态被投影回输入嵌入空间并重新用作下一步输入，而无需提交可见 token。然后模型切换到显式 CoT 解码，重用潜在 KV 缓存来生成推理步骤和最终答案。

设 $Q=(Q_1,\dots,Q_m)$ 表示提示。在潜在步骤 $s$，模型产生最后层隐藏状态 $h_s \in \mathbb{R}^{d_h}$。我们不将 $h_s$ 解码为 token ID 并将该 token 反馈给模型，而是直接将 $h_s$ 映射到输入嵌入空间。遵循 LatentMAS [28](https://arxiv.org/html/2605.07315#bib.bib5) 的潜在过渡构建，我们使用：

$$
e_{s+1}^{\mathrm{lat}} = W_a h_s, \quad W_a \approx W_{out}^\dagger W_{in}, \quad (1)
$$

其中 $W_{in}$ 是输入嵌入矩阵，$W_{out}$ 是输出投影矩阵，$W_{out}^\dagger$ 表示 $W_{out}$ 的伪逆。向量 $e_{s+1}^{\mathrm{lat}}$ 随后被用作下一步的输入嵌入。这产生了一条连续轨迹：

$$
h_1 \rightarrow e_2^{\mathrm{lat}} \rightarrow h_2 \rightarrow e_3^{\mathrm{lat}} \rightarrow \cdots \rightarrow h_S, \quad (2)
$$

在中间潜在位置没有离散 token 提交。

仅用于诊断，我们将每个潜在隐藏状态解码为探测分布和一个 argmax 探测 token：

$$
p_s = \mathrm{softmax}(W_{out} h_s), \quad \hat{y}_s = \arg\max_i (p_s(i)), \quad (3)
$$

探测 token $\hat{y}_s$ 永远不会用作下一个输入。它只是观察潜在状态如何与模型的词汇空间对齐。我们还计算探测分布的熵：

$$
\mathcal{H}_s = -\sum_i p_s(i) \log p_s(i). \quad (4)
$$

这提供了模型在该潜在步骤不确定性的标量摘要。

在潜在 rollout 之后，LaTER 切换到普通的显式 CoT 解码。切换不是重置：我们将潜在阶段的 `past_key_values` 传递给显式阶段，因此生成的推导以潜在轨迹为条件。我们评估两种切换策略：

- **固定步长切换**。模型执行 $N$ 个潜在步骤，然后进入显式 CoT 解码。
- **自适应切换**。当熵跨越阈值，或者解码的探测 token 属于模型特定的终止 token 集合（如 `<|im_end|>` 或 `<|endoftext|>`）时，模型退出潜在推理。形式上，自适应切换为：

$$
\mathrm{switch}(s) = \mathbf{1}[\mathcal{H}_s > \tau_{\mathcal{H}} \lor \hat{y}_s \in \mathcal{T}_{\mathrm{stop}}], \quad (5)
$$

其中 $\tau_{\mathcal{H}}$ 是熵阈值，$\mathcal{T}_{\mathrm{stop}}$ 是终止 token 集合。下一节将解释为什么这两个信号在经验上是有意义的。

### 2.2 经验动机：潜在轨迹是结构化的

对潜在推理的一个担忧是，隐藏状态可能会偏离词汇流形，使重复的潜在过渡不稳定或语义无意义。我们的实验表明，对于 Qwen3-14B [22](https://arxiv.org/html/2605.07315#bib.bib12)、DeepSeek-R1-Distill-Llama-8B [7](https://arxiv.org/html/2605.07315#bib.bib2) 和 OLMo3-32B-Think [13](https://arxiv.org/html/2605.07315#bib.bib13) 等推理模型，情况更有结构性。

> **图 2 标题**: Qwen3-14B 在 AIME 2025 上随归一化推理进度变化的熵。蓝色：从潜在开始到结束对齐每个示例后的平均潜在推理熵。红色：通过归一化每句话的句内进度后的平均 CoT 熵。

**现象 1：探测 token 揭示了自回归停止结构。** 早期潜在状态经常解码为低内容探测，如空字符串或重复的换行符（"\n\n"）。然而，在经过更多的潜在步骤后，argmax 探测经常达到模型原生的终止符号，如 `<|im_end|>` 或 `<|endoftext|>`。这些探测 token 不会反馈给模型，因此它们不驱动 rollout。它们的出现表明连续轨迹仍然与模型的生成先验耦合。从这个意义上说，潜在推理并不表现为任意的数值漂移；它经常接近语言模型本身会解释为“闭合”的状态。这一观察对 LaTER 至关重要。如果模型内部接近类似于“准备停止”的状态，那么切换到显式 CoT 可以与模型自身的轨迹以及其在预训练期间获得的推理模式保持一致，而不是在不相关的时间强加。

**现象 2：熵支持“先探索后验证”的解释。** 如图 2 所示，潜在 rollout 期间的平均熵在终止前随归一化的潜在进度趋于上升。这与普通的显式解码不同，在普通解码中，熵通常在句子开始时局部较高，然后随着语法和先前生成的单词约束后续内容而下降。因此，潜在阶段似乎支持更广泛且局部约束较少的搜索，而随后的显式阶段将累积状态转换为逐步推导。我们并不声称熵 alone 完全解释了潜在推理。相反，这两个观察提供了实用的切换信号：终止 token 探测表明轨迹正在接近闭合，而熵轮廓表明潜在状态何时进入高不确定性区域。它们共同促成了公式 (5) 中的自适应规则。

### 2.3 免训练实验设置

我们在相同的提示和解码设置下比较标准离散 CoT 解码与免训练 LaTER。我们报告准确率和总 token 使用量。对于 LaTER，token 使用量统计潜在步骤和发出的显式 token，因此减少不是忽略潜在计算的人为结果。我们在 AIME 2025 [1](https://arxiv.org/html/2605.07315#bib.bib14)、MATH-500 [9](https://arxiv.org/html/2605.07315#bib.bib15)、GSM8K [3](https://arxiv.org/html/2605.07315#bib.bib16)、GPQA [15](https://arxiv.org/html/2605.07315#bib.bib17)、ARC-Challenge [2](https://arxiv.org/html/2605.07315#bib.bib18)、HumanEval+ 和 MBPP+ [10](https://arxiv.org/html/2605.07315#bib.bib19), [11](https://arxiv.org/html/2605.07315#bib.bib20) 上评估 Qwen3-14B、DeepSeek-R1-Distill-Llama-8B 和 OLMo3-32B-Think。

### 2.4 固定步长切换结果

对于 Qwen3-14B，我们遵循官方解码建议：temperature=0.6，top-p=0.95，top-k=20，max_new_tokens=38192。在此设置下，标准离散 CoT 基线在 AIME 2025 上达到 70.0% 的准确率，平均 token 数约为 16K。图 3 显示，固定步长 LaTER 可以大幅减少 token 使用量，但未能完全匹配基线准确率。最佳的固定 horizon（约 50–60 个潜在步骤）达到 63.3% 的准确率，总 token 数约为 10K–12K。

> **图 3 标题**: 随着固定潜在步骤预算的变化，AIME 2025 上的准确率和 token 使用量。

固定步长曲线是非单调的：随着潜在预算的增加，性能首先改善，然后当返回显式推理延迟过长时降级。这种模式支持 LaTER 背后的角色分离。潜在探索在一定范围内是有用的，但困难问题仍然受益于显式符号阶段，该阶段检查中间结论并格式化最终答案。单一的固定 horizon 无法适应实例难度，这促使了自适应切换。

### 2.5 自适应切换结果

自适应 LaTER 使用与上述相同的解码配置，但用公式 (5) 替换固定的潜在 horizon。在每个潜在步骤中，我们监测探测分布的熵和 argmax 探测 token。一旦熵超过 7 或探测 token 成为终止符号（如 `<|im_end|>`），模型切换到显式 CoT。表 1 显示...

LaTER：通过潜在探索与显式验证实现高效的测试时推理

相似文章

逻辑正则化验证器激发大语言模型的推理能力

乱码也有效：提示空间扰动拓宽推理探索

更少语言、更少Token：高效统一逻辑跨语言链式思维推理框架

通过具有效率意识的变分后验引导实现高效的大语言模型推理

大规模推理模型（尚）不是多语言潜在推理器

提交意见反馈