大语言模型在最长简单链式推理任务上的表现如何:关于等价类问题的实证研究

arXiv cs.AI 论文

摘要

本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。

arXiv:2605.06882v1 公告类型:new 摘要:大语言模型(LLM)近年来取得了显著进展。然而,LLM 在推理任务尤其是长链推理任务上的实际能力仍不明确。在本文中,我们评估了 LLM 在最简单但属于长链推理任务——即等价类问题(ECP)上的表现。该问题旨在根据一组随机生成的等价关系,判断两个变量是否相等。我们在大量不同的问题实例上,评估了包括推理与非推理在内的代表性 LLM,涵盖变量数量、连通概率、提示词及其他多种因素。实验结果表明,非推理 LLM 无法解决等价类问题,而推理模型虽然表现显著更好,但仍难以完全解决该问题。有趣的是,在固定变量数量的情况下,通过考察不同的连通概率,我们观察到:对于非推理模型,最难的问题实例恰好与 ln n/(n-1) 的相变点重合,这表明了问题的复杂性/混乱度;而对于推理模型,最难的问题实例则与最大直径重合,这反映了问题在推理上的难度。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:08

# 大型语言模型在最简单的长链推理任务上的表现如何:基于等价类问题的实证研究

来源:https://arxiv.org/html/2605.06882

Lianlong Wu²,∗, Bingqian Li¹, Lvting Liu¹, Yi Zhou¹  
¹中国科学技术大学  
²牛津大学  
[email protected], [email protected], [email protected], [email protected]

###### 摘要

近年来,大型语言模型(LLMs)取得了显著进展。然而,LLMs 在推理任务,尤其是长链推理任务上的实际能力仍然不明朗。在本文中,我们评估了 LLMs 在看似简单却属于长链推理的任务——即等价类问题(ECP)上的表现,该任务要求根据一组随机生成的等价关系判断两个变量是否相等。我们在多种问题实例上测试了代表性的推理模型和非推理模型,这些实例涵盖了不同的变量数量、连通概率、提示词以及其他因素。实验结果表明,非推理模型在 ECP 上表现不佳,而推理模型虽然表现显著更好,但仍难以完全解决该问题。有趣的是,在变量数量固定的情况下,我们观察到随着各种连通概率的变化,对于非推理模型,最难的问题实例出现在 $\frac{\ln n}{n-1}$ 的相变点附近,这反映了问题的混乱性;相比之下,对于推理模型,最难的问题实例出现在图直径最大的地方,这反映了问题的推理难度。

¹ footnote text: 这些作者贡献同等。

## 1 引言

大型语言模型(LLMs)的演进最近达到了一个分水岭。该领域目前呈现出两种并存范式的分化:一种是由标准非推理模型组成,如 DeepSeek-V3 [Liu et al. (2024)](https://arxiv.org/html/2605.06882#bib.bib15) 和 Qwen3-Max [Qwen Team (2025)](https://arxiv.org/html/2605.06882#bib.bib23),它们依赖海量参数和大量训练数据进行快速模式匹配和文本生成。另一种是近期出现的推理模型,包括 Qwen3-MAX-thinking [Qwen Team (2025)](https://arxiv.org/html/2605.06882#bib.bib23)、DeepSeek-V3.2-thinking [Liu et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib16)、DeepSeek-R1 [Guo et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib10) 以及 Claude 4.5 Sonnet Thinking [Anthropic (2025)](https://arxiv.org/html/2605.06882#bib.bib1)。后者的显著特征是融入了思维链(Chain-of-Thought, CoT)机制,能够在输出最终答案之前生成详细的推理过程。这种“系统 2”方法在复杂的数学和编程基准测试中展示了令人印象深刻的性能提升,并被视为迈向更通用人工智能的关键一步 [Wei et al. (2022)](https://arxiv.org/html/2605.06882#bib.bib27); [Kojima et al. (2022)](https://arxiv.org/html/2605.06882#bib.bib13)。

然而,尽管这两种模型范式在通用排行榜上表现优异,学术界对其在长链推理场景下的内部机制和能力边界仍缺乏深入理解。当前的主流评估范式主要依赖于现有基准测试,如 AIM [Mathematical Association of America (2026)](https://arxiv.org/html/2605.06882#bib.bib19) 或 MATH [Hendrycks et al. (2021)](https://arxiv.org/html/2605.06882#bib.bib11)。这些范式存在两个核心局限性:首先,存在数据污染和记忆效应,模型可能只是记住了问题与答案之间的映射关系,而非真正掌握逻辑规则 [McCoy et al. (2023)](https://arxiv.org/html/2605.06882#bib.bib20);其次,缺乏对复杂度的细粒度控制,因为现有的数学问题往往将计算、常识和逻辑纠缠在一起,使得难以隔离单一变量并可控地测试推理深度对性能的影响 [Shojaee et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib24); [Estermann et al. (2024)](https://arxiv.org/html/2605.06882#bib.bib7)。

一个关键问题仍未解决:当语义线索被剥离,仅剩下抽象逻辑时,非推理模型和推理模型在根本上有何不同?它们是在进行真正的逻辑演绎,还是仅仅在进行复杂的概率曲线拟合?为了严格评估逻辑能力,本研究构建了一个基于等价类问题的合成任务环境。该任务概念上很简单,不需要外部知识,但需要通过多步递归演绎来进行长链推理,从而作为严格的探测工具。从数学上讲,该问题等同于识别图中的连通分量,模型必须仅通过局部等价链接的传递性来推断全局成员关系。这种环境具有独特优势,能够将纯逻辑演绎从语义干扰中隔离出来,同时能够生成自然跨越不同推理深度谱的问题实例。

我们的实证研究基于对非推理(如 DeepSeek-V3)和推理(如 DeepSeek-R1)两种范式的代表性模型进行全面评估。通过系统地扫描不同问题规模(高达 $n=144$)下的连通概率,以覆盖关键的相变区域,我们揭示了当前 LLMs 在处理抽象逻辑时的三个关键特征:

首先,错误峰值在临界相变窗口(介于 $1/n$ 和 $\frac{\ln n}{n-1}$ 之间)内出现分歧。DeepSeek-V3.2(非推理模型)被结构混乱所淹没,其错误率在连通阈值 $\frac{\ln n}{n-1}$ 附近达到峰值。相比之下,DeepSeek-R1(推理模型)表现出深度依赖的失败模式:其错误率在相变早期达到峰值,更接近 $1/n$,这正是平均推理深度达到最大的地方。这证实了虽然标准模型在拓扑复杂性方面 struggle,但推理模型主要受限于演绎链的长度。

其次,非推理模型在处理多步依赖关系方面存在严重局限。我们对 DeepSeek-V3.2 的实验表明,虽然该模型在单跳演绎(Depth=1)上表现稳健,但无法泛化到更长的链。具体而言,错误率在 Depth=2 时急剧增加,并在 Depth=3 时饱和至接近随机猜测的水平。这表明,无论模型规模如何,标准 Transformer 架构都难以在直接连接之外保持逻辑连贯性。

第三,推理模型仍然对推理链的长度敏感。尽管像 DeepSeek-R1 这样经过 CoT 增强的模型相比非推理基线实现了显著更低的整体错误率,但它们并未实现完全的泛化。我们观察到,随着推理深度线性增加,这些模型的错误率呈指数增长。这表明,虽然思维链机制有效地扩展了可解决步骤的范围,但它们并未从根本上消除递归推理中的错误累积。此外,广泛的消融实验表明,显式规则和少样本示例带来的收益微乎其微,指向了执行瓶颈。虽然图论框架的表现显著优于抽象逻辑,但无论是上下文隔离还是多路径采样(Pass@5)都无法防止在临界相变处的根本性推理崩溃。

本文的主要贡献如下:

- 我们构建了一个基于等价类问题(ECP)的可控实验平台,为评估 LLMs 的纯逻辑推理边界提供了基准。
- 我们定量刻画了非推理模型在多步演绎中的失败,揭示了尽管在直接查询中准确率很高,但它们无法在单跳任务之外进行可靠推理的具体缺陷。
- 我们证明即使在最先进的推理模型中,长链能力仍然受制于指数级的错误增长,驳斥了“推理模型已解决逻辑泛化”的乐观假设。
- 我们提供了实证证据,表明静态提示工程不足以克服结构性的推理障碍,突显了类似系统 2 的主动计算的必要性。

## 2 相关工作

#### LLMs 和推理范式的演变

大型语言模型(LLMs)的快速发展被广泛认为是通往通用人工智能(AGI)的关键路径,其中智能和推理能力的涌现一直是研究的核心焦点 [McCoy et al. (2023)](https://arxiv.org/html/2605.06882#bib.bib20); [Nezhurina et al. (2024)](https://arxiv.org/html/2605.06882#bib.bib21); [Hu et al. (2024)](https://arxiv.org/html/2605.06882#bib.bib12)。早期关于思维链(CoT)的研究发现,引导模型在生成最终答案之前输出中间推理步骤 [Wei et al. (2022)](https://arxiv.org/html/2605.06882#bib.bib27); [Zhou et al. (2022)](https://arxiv.org/html/2605.06882#bib.bib30); [Kojima et al. (2022)](https://arxiv.org/html/2605.06882#bib.bib13) 能显著提高复杂任务的准确率。这一发现影响了“推理模型”的诞生:通过强化学习(RL)微调,模型学习在特殊 token 内显式生成隐含的思维过程 [Guo et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib10)。这种范式转变不仅显著提升了各种基准测试的性能,还赋予模型一定的泛化能力 [Ma et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib17); [Xue et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib28)。在最新的前沿进展中(如 DeepSeek-V3.2 [Liu et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib16), Qwen3-Max [Qwen Team (2025)](https://arxiv.org/html/2605.06882#bib.bib23)),这种“思考”能力变得越来越模块化,允许用户根据任务需求在推理阶段动态切换它,标志着推理计算资源灵活分配的新趋势。

#### 推理能力的本质与局限性

随着推理模型的普及,学术界开始深入剖析其内部机制和能力边界 [Chen et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib3); [Li et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib14)。一方面,对推理轨迹的微观分析揭示了复杂的行为模式,从自我反思到“过度思考” [Chen et al. (2024)](https://arxiv.org/html/2605.06882#bib.bib2); [Marjanović et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib18); [Sui et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib25)。另一方面,关于 RL 是否真的赋予模型“新颖”的推理能力仍存在争议。一些研究指出,当控制计算成本(如 pass@k 测试)时,RL 训练的推理模型与基础模型在许多任务上的性能差异往往可以忽略不计,这表明 RL 可能是在激发现有能力而非创造新能力 [Yue et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib29)。此外,专注于经典算法谜题(如汉诺塔和跳棋)的研究发现,随着问题复杂度的增加,推理模型和非推理模型都会出现性能崩溃 [Shojaee et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib24)。与这些测试“算法执行”技能的谜题不同,本研究构建了抽象的等价类问题,旨在剥离语义干扰,纯粹评估模型在长链逻辑上下文中的推理鲁棒性。

> **图 1:扩展极限。** 最大错误率与问题规模 ($n$) 的关系。左面板报告非推理模型,其峰值错误随着变量集的增长而急剧上升。右面板报告推理模型,它们大幅降低了错误规模,但在较大的实例下仍暴露出非零失败。每个点是在该问题大小的扫描概率范围内观察到的最大错误。

#### 可控评估环境

为了克服传统静态基准测试(如数据污染和不可量化的难度)的局限性,研究人员越来越多地转向“可控评估环境” [Estermann et al. (2024)](https://arxiv.org/html/2605.06882#bib.bib7); [Valmeekam et al. (2022)](https://arxiv.org/html/2605.06882#bib.bib26); [Gui et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib9); [Shojaee et al. (2025)](https://arxiv.org/html/2605.06882#bib.bib24)。此类环境的核心优势在于能够通过参数化精细调节问题复杂度,同时保持一致的逻辑结构(如规则定义),从而定量映射模型性能边界。遵循这一方法论,本研究设计了一个基于等价类的实验框架。该框架允许系统控制推理深度和概率密度,为比较推理模型和非推理模型在长链推理任务中的行为差异提供了可控的测试平台。

## 3 方法论

在本节中,我们将长链推理能力的评估形式化为一个基于图论的等价类划分问题。这种可控环境允许我们通过调整问题规模和连通概率来精确调节推理的宽度和深度。

### 3.1 任务形式化

我们使用随机图框架来建模等价类问题。给定变量数量 $n$ 和连通概率 $p$,任务定义在图 $G=(V,E)$ 上:

#### 变量。
设 $V=\{v_1, v_2, \dots, v_n\}$ 为 $n$ 个不同的抽象变量集合(例如,$\{a_1, a_2, \dots, a_n\}$)。

#### 等价关系。
我们采用 Erdős-Rényi 模型 $G(n,p)$ 来生成底层逻辑结构 [Gilbert (1959)](https://arxiv.org/html/2605.06882#bib.bib8); [Erdős and Rényi (1959)](https://arxiv.org/html/2605.06882#bib.bib5)。对于每对不同的变量 $(v_i, v_j)$,以概率 $p$ 独立建立直接的等价关系(表示为无向边)。设 $E$ 表示所有生成的直接关系集合。在此设置下,$p$ 也对应于预期的图密度,因为所有 $\binom{n}{2}$ 个可能的无向边中已实现边的预期比例为 $p$。

### 3.2 探测机制:成对查询

虽然理论目标是计算完整的划分 $\mathcal{P}$,但评估完整集合的生成输出容易受到解析错误和格式幻觉的影响。为了严格量化模型的推理准确率,我们通过**成对查询**将输出格式简化为二分类任务。对于生成的图 $G=(V,E)$,我们构建查询集 $Q=\{(u_i, v_i)\}_{i=1}^k$。对于每一对 $(u,v)$,向模型展示边列表 $E$ 并提问:“基于

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

大语言模型何时能在弱监督下学会推理?

Hugging Face Daily Papers

# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor