大型模型优势所在:约束引导推理的首要地位
摘要
本文介绍了AdvCluster,一个自动化框架,用于识别和分类大型语言模型相对于小型模型在数学、物理、化学和编程基准测试中的推理优势。研究发现,大型模型在约束引导推理方面表现更佳——识别和组织约束以排除不可行路径并验证中间步骤。
arXiv:2606.26108v1 公告类型:新
摘要:大型语言模型在推理基准测试中始终优于小型模型,但造成这一差距的推理差异仍未得到充分探索。在数学、物理、化学和编程基准测试中,我们观察到稳定的性能差距:在数据集上取平均值,Qwen3-32B 比 Qwen3-8B 高出 6.43%,而 GPT-OSS-120B 比 GPT-OSS-20B 高出 7.38%。为了研究这些增益背后的推理差异,我们开发了 AdvCluster,一个自动化框架,用于识别大型模型具有稳定优势的问题,从大型和小型模型产生的配对推理轨迹中提取细粒度的优势描述,并通过语义聚类以及由评审模型指导的定量评估和选择来组织它们。我们的分析得出了大型模型推理优势的系统分类,既包括跨领域重复出现的常见优势,也包括与特定领域相关的专门优势。在这些模式中,一个反复出现的主题是约束引导推理:大型模型更擅长识别显式和隐式约束,将它们组织成结构化推理,并利用它们排除不可行路径和验证中间步骤。
查看缓存全文
缓存时间: 2026/06/26 05:14
# 约束引导推理的首要地位 来源:https://arxiv.org/html/2606.26108 ## 更大模型的优势所在:约束引导推理的首要地位 Guan\-Yi Lin 国立政治大学 台北,台湾 111703052@g\.nccu\.edu\.tw & Hen\-Hsen Huang 中央研究院 台北,台湾 hhhuang@iis\.sinica\.edu\.tw ###### 摘要 大型语言模型在推理基准测试上始终优于较小的模型,然而支撑这一差距的推理差异仍未得到充分探索。在数学、物理、化学和编程等多个基准测试中,我们观察到稳定的性能差距:平均而言,Qwen3\-32B 在所有数据集上比 Qwen3\-8B 高出 6.43%,而 GPT\-OSS\-120B 比 GPT\-OSS\-20B 高出 7.38%。为了研究这些性能提升背后的推理差异,我们开发了AdvCluster,一个自动化的框架,用于识别较大模型展现出稳定优势的问题,从较大模型和较小模型产生的配对推理轨迹中提取细粒度的优势描述,并通过语义聚类以及由评审模型指导的定量评估和选择来组织它们。我们的分析产生了一个系统的大模型推理优势分类体系,涵盖了跨领域普遍存在的共同优势和与特定领域相关的专门优势。在这些模式中,一个反复出现的主题是约束引导推理:较大模型更擅长识别显式和隐式约束,将它们组织成结构化推理,并利用它们排除不可行的路径和验证中间步骤。 ## 1 引言 尽管大型语言模型在复杂推理基准测试上始终优于较小的模型,但这种优势背后的推理过程仍未被充分理解。现有的评估主要关注总体结果(如准确率),这几乎无法揭示大型模型在哪些方面表现出色,或其推理方式与较小模型有何不同(Lightmanet al.,2024 (https://arxiv.org/html/2606.26108#bib.bib23))。先前的研究主要通过蒸馏来增强较小模型,以解决推理瓶颈(Hsiehet al.,2023 (https://arxiv.org/html/2606.26108#bib.bib22); Mitraet al.,2023 (https://arxiv.org/html/2606.26108#bib.bib27))。虽然一些研究通过过程监督(Lightmanet al.,2024 (https://arxiv.org/html/2606.26108#bib.bib23))或整体基准测试(Lianget al.,2023 (https://arxiv.org/html/2606.26108#bib.bib25))来评估推理,但该领域仍然缺乏一个系统性的框架来实证分析较大模型的定性推理优势。在这项工作中,我们提出了一个跨规模的推理分析,特别关注将较大模型与其同一模型家族中的较小对应物进行比较。受Yinet al.(2025 (https://arxiv.org/html/2606.26108#bib.bib14))的启发,我们开发了AdvCluster,一个自动化的优势发现框架,首先识别较大模型始终优于较小模型的基准问题,然后比较它们的推理轨迹以提取优势描述。然后,我们通过语义处理管道将这些描述组织成聚类,并使用定量指标以及评审模型,根据一致性、区分性和粒度来选择合适的聚类方案。图1 (https://arxiv.org/html/2606.26108#S1.F1) 用一个代表性的数学示例展示了AdvCluster框架,显示了大型模型的推理优势如何自然地来源于数据。我们的分析将这些推理优势分为两类:普遍优势,它们在多个领域重复出现;以及专门优势,它们与特定领域的知识相关。AdvCluster在各个领域识别出的一个主要普遍模式是约束引导推理。如图1 (https://arxiv.org/html/2606.26108#S1.F1) 所示,较小模型常常依赖于无引导的试错,而较大模型则倾向于使用显式约束重新表述问题,以系统性地指导求解过程。 参见图注 图 1:AdvCluster框架的图示,以Qwen3\-32B和Qwen3\-8B在数学问题上的对比分析为例。上下面板对比了较大模型和较小模型的推理轨迹,标注符号 (⋆,⋄\\star,\\diamond) 突出显示了较大模型展现战略优势的特定步骤。基于LLM的优势提取器将这些局部差异转化为文本优势描述。在众多此类问题上,这些优势通过语义聚类聚合为聚类标签——例如通过变换重新表述和简化为存在约束——这些标签刻画了更广泛的约束引导推理模式。 ## 2 动机与初步观察 思维链提示能提升复杂推理任务的性能,同时暴露中间推理步骤,使推理轨迹可分析(Weiet al.,2022b (https://arxiv.org/html/2606.26108#bib.bib1); Wanget al.,2023b (https://arxiv.org/html/2606.26108#bib.bib21))。这种增加的透明度促进了对推理轨迹分析的日益增长的研究(Yeoet al.,2024 (https://arxiv.org/html/2606.26108#bib.bib20); Wanget al.,2023a (https://arxiv.org/html/2606.26108#bib.bib24))。更大模型通常表现更好。另一条研究线表明,语言模型的能力通常随规模增大而提升。Kaplanet al.(2020 (https://arxiv.org/html/2606.26108#bib.bib2)) 通过参数、数据和计算量的神经缩放定律描述了这些收益。后续研究进一步表明,一些复杂能力,包括多步推理,只有在足够大的规模下才会出现。Weiet al.(2022a (https://arxiv.org/html/2606.26108#bib.bib3)) 将此类行为描述为涌现能力,即小模型中不存在但大模型中存在的能力。总之,这些发现表明,较大模型往往比其较小的对应模型获得更强的推理性能。然而,一个核心问题仍然存在:较大模型在哪些方面表现出比小模型一致的推理优势?大多数现有工作反而侧重于改进较小模型,例如通过蒸馏解决特定瓶颈,如推理数据质量(Zhaoet al.,2024 (https://arxiv.org/html/2606.26108#bib.bib4))。虽然此类努力可能间接暗示大模型在哪些方面具有优势,但它们并未提供关于大模型与小模型之间推理行为差异的系统性实证说明。 初步结果。我们首先在四个领域进行了初步实验:数学、物理、化学和编程。我们的评估涵盖了多种推理基准测试,包括HHMT(Balunovicet al.,2025 (https://arxiv.org/html/2606.26108#bib.bib7))、Omni\-MATH(Gaoet al.,2025 (https://arxiv.org/html/2606.26108#bib.bib6))、JEEBench(Aroraet al.,2023 (https://arxiv.org/html/2606.26108#bib.bib8))、OlympiadBench(Kuet al.,2024 (https://arxiv.org/html/2606.26108#bib.bib32))、GPQA(Reinet al.,2023 (https://arxiv.org/html/2606.26108#bib.bib10)) 和 CRUXEval(Xuet al.,2025 (https://arxiv.org/html/2606.26108#bib.bib11))。我们评估了两个不同规模的推理模型家族:Qwen3\-8B vs. Qwen3\-32B,以及 GPT\-OSS\-20B vs. GPT\-OSS\-120B (Team,2025 (https://arxiv.org/html/2606.26108#bib.bib12); OpenAI,2025 (https://arxiv.org/html/2606.26108#bib.bib13))。我们的初步结果显示,在这些推理基准测试上,从较小模型到其较大的对应模型,性能持续提升。在评估的所有数据集上,Qwen3\-32B 平均比 Qwen3\-8B 高出 6.43%,而 GPT\-OSS\-120B 平均比 GPT\-OSS\-20B 高出 7.38%。这些初步结果证实了我们设定中大小模型之间的性能差距,并促使我们更深入地研究这些提升源于推理过程的哪些环节。每个数据集的详细结果见附录 A.4 (https://arxiv.org/html/2606.26108#A1.SS4)。 表 1:所有评估推理基准测试的平均准确率 (%)。 ## 3 方法 ### 3.1 动态优势分类 推理优势很难使用预定义的分类法进行分类,因为模型优势的形式因任务和领域而异。这使得由 LLM 评判者进行静态类别分配具有限制性和潜在不可靠性。Yinet al.(2025 (https://arxiv.org/html/2606.26108#bib.bib14)) 使用动态自适应框架解决了数学错误分析中的一个相关挑战,该框架中的类别是从数据中归纳出来的,而非预先指定。受此想法启发,我们开发了一个数据驱动的推理优势分析管道。我们不施加固定的分类法,而是首先从大小模型推理轨迹的实证比较中提取细粒度的优势描述,然后通过语义聚类来组织这些描述。这使得重复出现的推理优势类别能够自然地来源于数据。 ### 3.2 我们的框架:AdvCluster AdvCluster 包含三个阶段:分析问题集、优势提取和语义聚类。在第一阶段,我们通过识别在多次运行中较大模型始终优于较小模型的基准问题来构建分析问题集。在第二阶段,我们为分析集中的每个问题构建大小模型推理轨迹的配对比较,并使用 LLM 作为优势提取器,从这些比较中生成细粒度的优势描述。在第三阶段,我们对提取的描述进行嵌入和聚类,以归纳出一个可解释的大模型推理优势分类法。 #### 3.2.1 分析问题集 基于差距的过滤。由于我们的目标是比较大模型和小模型之间的推理差异,我们首先识别那些在多次试验中较大模型始终优于较小模型的问题。这一步可以隔离出反映稳定性能差异的分析问题。对于每个问题 qq,我们评估两个模型在 TT 次独立试验中的表现。设 cM(q,t)=1c\_\{M\}(q,t)=1 如果模型 MM 在第 tt 次试验中正确回答 qq,否则为 0。我们定义模型 MM 在 qq 上的通过率为 PassRateM(q)=1T∑t=1TcM(q,t),mathrm\{PassRate\}\_\{M\}(q)=\\frac\{1\}\{T\}\\sum\_\{t=1\}^{T}c\_\{M\}(q,t),即 MM 正确回答 qq 的试验比例。我们定义问题 qq 的性能差距为 Δ(q)=PassRateML(q)−PassRateMS(q),\\Delta(q)=\\mathrm\{PassRate\}\_\{M\_\{L\}\}(q)\-\\mathrm\{PassRate\}\_\{M\_\{S\}\}(q),其中 MLM\_\{L\} 和 MSM\_\{S\} 分别表示较大和较小模型。该指标衡量在多次试验中,较大模型比较小模型更频繁地正确回答问题 qq 的程度。我们保留 Δ(q)\\Delta(q) 足够大的问题以构成分析问题集。下一阶段仅在此过滤后的集上构建推理比较。 #### 3.2.2 优势提取 对于分析问题集中的每个问题 qq,我们构建较大模型和较小模型之间的推理比较。每个比较实例由同一问题下的一对推理轨迹组成,一个来自较大模型,一个来自较小模型。设 rq,iLr^{L}\_{q,i} 和 rq,iSr^{S}\_{q,i} 分别表示问题 qq 在第 ii 个比较实例中的大模型和小模型推理轨迹。然后我们使用优势提取器 J\\mathcal\{J\} 来比较配对轨迹,并生成一组优势描述: Zq,i=J(q,rq,iL,rq,iS),Z\_\{q,i\}=\\mathcal\{J\}(q,r^{L}\_{q,i},r^{S}\_{q,i}),其中每个元素 z∈Zq,iz\\in Z\_\{q,i\} 是一个自然语言描述,说明在该比较中较大模型相对于较小模型展现出的一种推理优势。这样,每个推理对都会生成少量优势描述。具体地,提取器使用以下提示实现: 提示您是一位优势提取专家。Model\_A 正确;Model\_B 错误。 任务:比较它们的推理……提取 2\-5 个优势对象,解释 Model\_A 为何成功。 问题:\{q\} Model\_A 推理:\{larger\_model\_reasoning\} Model\_B 推理:\{smaller\_model\_reasoning\} … 完整提示见附录 LABEL:llmanalyzeprompt #### 3.2.3 语义聚类 优势提取后,我们从分析问题集上构建的所有比较实例中获得了一个自然语言优势描述的集合。这些描述总结了较大模型在不同领域的问题上如何优于较小模型。设 Z\\mathcal\{Z\} 为所有提取的优势描述的集合。 优势编码与预处理。我们将每个描述 z∈Zz\\in\\mathcal\{Z\} 编码为嵌入向量 e=φ(z)∈Rd,e=\\phi(z)\\in\\mathbb\{R\}^{d},其中 φ\\phi 表示嵌入模型。由于同一问题的多个比较实例可能产生高度相似的优势描述,直接聚类所有描述可能会使聚类中心偏向重复的模式。因此,我们使用贪心算法在嵌入空间中进行去重,余弦相似度阈值为 0.950.95 (Guptaet al.,2025 (https://arxiv.org/html/2606.26108#bib.bib18); Gyawaliet al.,2020 (https://arxiv.org/html/2606.26108#bib.bib19))。然后,我们在聚类之前通过 PCA 降低嵌入维度,以减轻在高维向量空间中聚类的难度,遵循常见的基于嵌入的文本聚类管道 (Grootendorst,2022 (https://arxiv.org/html/2606.26108#bib.bib16); Eklundet al.,2023 (https://arxiv.org/html/2606.26108#bib.bib17))。 e~=ψ(e)∈Rd′,d′", "failure_description": "" }, { "type": "advantage", "advantage": "", "evidence": "" }, { "type": "advantage", "advantage": "", "evidence": "" },… ] `` #### A.2.2 摘要模型提示 提示您是一位 LLM 推理分析专家。我将提供一组相似的推理优势。请总结这些优势,并为该聚类提供一个标签和定义。 指令: 1. 去领域:剥离所有特定于主题的上下文(例如,将“化学价”替换为“结构约束”)。 2. 动作动词标签:标签必须以强烈的动作动词开头(例如,映射、验证、简化、推导、解决)。避免使用“推理”或“逻辑”等通用标签。 3. 定义:描述模型*如何*操作信息以得出结论。使用 2\-4 个清晰的句子。 4. 长度:标签(2–4 个词)。 优势(项目符号列表): \{advantage\_descriptions\_within\_cluster\_k\} 仅返回 JSON,格式如下: `` { "tag": "…", "definition": "…" } `` #### A.2.3 评审模型提示 提示您正在评估从聚类中归纳出的推理优势分类法。不要重写分类法。不要假设更少的聚类总是更好。只关注分类法质量。您将获得 K,以及每个聚类的 id、标签和简短定义。 使用以下标准评估分类法: ### 1. 互斥性(区分性) - \[1\-2\] 冗余:两个或更多聚类描述相同的概念。 - \[3\-4\] 重叠:显著重叠(>40%) - \[5\-6\] 中等:概念不同,但边界模糊/缺乏排他性。 - \[7\-8\] 清晰:每个聚类的特征不同;歧义非常低。 - \[9\-10\] 排他性:一个实例在逻辑上不可能属于两个聚类。 ### 2. 概念精确性与深度(粒度) - \[1\-2\] 模糊/循环:定义没有提供真正的见解,或重复标签。相似文章
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。
@ChrisGPotts:我们理所当然地认为更大的模型比小的更好,但为什么会这样?我们的新论文,由Jing Hua领导……
本文探讨了为什么更大的模型性能优于较小的模型,通过形式化分析和实验将其归因于数据引发的神经资源竞争。
推理、代码,还是两者兼有?大型语言模型如何处理数学问题的变化
本文使用 Claude Haiku 4.5 在 1000 个 GSM-Symbolic 问题上评估了三种方法(纯思维链推理、单次代码执行和迭代代码执行),发现思维链对扰动最为鲁棒,而代码执行并未提升小学数学问题的推理鲁棒性。
大规模推理模型(尚)不是多语言潜在推理器
本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。