数据驱动的机器学习无法达到符号级别的逻辑推理——缩放定律的极限
摘要
本文认为,包括GPT-5在内的数据驱动机器学习系统无法仅通过缩放达到符号级别的逻辑推理,原因在于它们在区分逻辑结构与统计规律方面存在固有局限性。
arXiv:2606.26454v1 公告类型:新
摘要:Sphere神经网络无需训练数据即可实现符号级别的三段论推理,这引发了一个问题:逻辑推理的缩放定律极限在哪里?即数据驱动的机器学习系统能否通过增加训练数据和训练时间达到同样的水平?我们指出了两种方法论上的局限性,阻碍了监督深度学习达到符号级别的三段论推理:(1)训练数据无法区分所有24种有效的三段论推理类型;(2)从前提到结论的端到端映射在用于模式识别和逻辑推理的神经组件之间引入了矛盾的训练目标。除了理论分析外,我们通过实验说明Euler Net无法实现严谨的三段论推理。我们进一步挑战最新的ChatGPTs(GPT-5-nano和GPT-5),要求其判断四种表面形式(模式)下三段论陈述的可满足性:单词、双词、简单符号和长随机符号。结果表明,表面形式会影响推理性能,且ChatGPT GPT-5可能达到100%的准确率,但仍会提供错误的解释。由于经验训练过程在达到100%准确率后停止,我们得出结论:监督机器学习系统无法达到符号逻辑推理的严谨性。
查看缓存全文
缓存时间: 2026/06/26 05:12
# 数据驱动的机器学习无法达到符号级别的逻辑推理——扩展定律的局限
来源:https://arxiv.org/html/2606.26454
1\ Alan Turing Institute, 2\ Department of Computer Science and Technology, University of Cambridge
###### 摘要
通过将向量提升为球体,并采用显式模型构建作为推理机制,球面神经网络(SphNN)无需依赖训练数据即可实现符号级别的三段论推理。这引发了一个根本性问题:数据驱动的机器学习系统仅通过增加训练数据和训练时间,能否达到同样严谨的水平?更具体地说,扩展定律能否保证严格的逻辑推理——逻辑推理的基础以及人类理性的缩影——即三段论推理的涌现?监督式深度学习系统可以从符号或图像两种输入模式学习三段论推理。然而,在符号设置下,无法从理论上保证训练后的模型能够将其推理能力泛化到分布外的符号。这一局限与近期对大型语言模型在三段论推理任务上的评估结果一致。另外,一些近期方法将三段论推理视为图像识别问题,并报告了接近100%的准确率。因此,我们重点关注这种较少被探索的范式能否通过进一步扩展训练数据和计算量最终达到符号级别的推理。无论底层神经架构如何,我们识别出图像输入监督学习系统在达到符号级别三段论推理时面临的两个方法论障碍:第一,仅靠训练数据无法区分所有24种有效的亚里士多德三段论推理形式,因为正确性是由逻辑结构而非统计规律决定的;第二,从前提到结论的端到端映射引入了一个目标冲突:模式识别组件必须从部分识别整体,而推理组件则被禁止这样做。这两个目标不一定一致。为了进一步研究这一问题,我们挑战最新一代ChatGPT(GPT-5)来判断三段论语句的可满足性并为其决策提供理由。虽然GPT-5可能在某个基准上达到100%的决策准确率,但仍可能产生错误或不一致的解释。由于经验训练过程通常在达到完美准确率后即终止,因此不存在进一步的优化压力来纠正此类推理缺陷。因此,我们认为,无论是基于符号还是图像输入的监督式机器学习系统,都无法仅通过扩展保证达到符号三段论推理所需的严谨性。因此,实现更复杂的逻辑推理形式仍是一项更大的挑战。
## 1 引言
神经网络——特别是大型语言模型(LLM)——在多种应用中取得了历史性成功,例如类人交流[chatgpt_nature2023]、下棋[alphaGo2017,alphaGo2020]、预测基因结构[AlphaFold3]以及解决数学任务[Davies21,alphaproof2024]。通过增加训练数据和训练时间[scalinglaw2020,scalinglaw24]以及将复杂任务分解为多个步骤[creswell2022selectioninference, wei2023COT, lightman2023lets],数据驱动的机器学习系统可以稳步增强其推理能力。然而,即使在简单的逻辑推理[chatgpt_nature2023](例如三段论推理系统[Eisape2024,syllogism24,kim2025])中,它们的推理能力仍然有限,因为推理过程是原始的,无法分解为多个步骤。
最近,通过将向量嵌入提升为球体并引入通过显式模型构建和检查进行推理的方法[LairdByrne91, knauf03, GoodwinLaird05, Knauff09],球面神经网络(SphNN)成功脱离了数据驱动机器学习的范式,达到了符号三段论推理的严谨性[djl2024sphere, djl2025]。这并不奇怪,因为RNN是图灵完备的[turingcomp23, transformerREP24],而SphNN是一种特殊的RNN。然而,这引发了一个问题:数据驱动的机器学习系统能否通过增加训练数据和训练时间达到(或无限接近)同样的性能?
本文的结构如下:第2节(https://arxiv.org/html/2606.26454#S2)介绍符号级别三段论推理的标准。第3节(https://arxiv.org/html/2606.26454#S3)综述监督式神经三段论推理、近期对LLM在三段论推理上的评估、神经逻辑证明,并以我们的研究问题结束。第4节(https://arxiv.org/html/2606.26454#S4)提出了阻止图像输入监督学习系统达到符号级别三段论推理的两个限制:(1) 训练数据无法区分每一种有效的三段论推理类型;(2) 端到端映射在模式识别和逻辑推理的神经组件之间引入了矛盾的目标。以Euler Net作为代表性的图像输入监督式三段论推理神经网络为例,第6节(https://arxiv.org/html/2606.26454#S6)展示了组合表无法区分具有相同前提但不同结论的三段论推理,以及端到端映射过程会产生何种非预期的输入。我们利用最新的GPT-5-nano和GPT-5进行了实验,展示了它们在四种表面形式(单词、双单词、简单符号、随机符号)下的三段论推理性能不稳定。Euler Net和两个GPT版本的实验一致表明,它们遵循扩展定律以提高三段论推理性能,但无法达到符号级别。第7节(https://arxiv.org/html/2606.26454#S7)总结全文并列出几个研究方向。
## 2 三段论推理:逻辑推理的基础
逻辑推理的核心概念,从历史上逻辑研究的起源至今,就是“从前提得出”的概念,或者更正式地说,“从前提得出的逻辑推论”——我们能从前提中知道什么?三段论推理,由亚里士多德在2000多年前发展而来,是逻辑推理历史的开端[historyLogic17]。从中世纪开始,逻辑学家从三段论推理发展出命题逻辑,后来又发展出一阶逻辑。
亚里士多德三段论推理是一种具有两个前提和一个结论的演绎形式。一个三段论演绎只包含三个项(\(X, Y, Z\))和四种可能的关系:(1) 全称肯定:所有 \(X\) 是 \(Y\);(2) 特称肯定:有些 \(X\) 是 \(Y\);(3) 全称否定:没有 \(X\) 是 \(Y\);(4) 特称否定:有些 \(X\) 不是 \(Y\)。设两个前提为“有些律师是总统”和“没有总统是科学家”,则结论及其否定为“有些律师不是科学家”和“所有律师是科学家”,如图1(e)所示。四种三段论关系可以通过欧拉图中的集合关系来解释,如图1(a-d)所示。例如,“有些 \(X\) 是 \(Y\)”可以解释为关系“集合 \(X\)(\(\mathcal{O}_X\))与集合 \(Y\)(\(\mathcal{O}_Y\))相交”,这对应于三种可能的图示关系:(1) \(\mathcal{O}_X\) 与 \(\mathcal{O}_Y\) 部分重叠;(2) \(\mathcal{O}_X\) 包含 \(\mathcal{O}_Y\);(3) \(\mathcal{O}_Y\) 包含 \(\mathcal{O}_X\)。我们可以将这三种可能的关系合并为一个关系:\(\mathcal{O}_X\) 不与 \(\mathcal{O}_Y\) 分离,即 \(\neg\mathbf{D}(\mathcal{O}_X, \mathcal{O}_Y)\),如图1(c)所示。形式上,我们将 \(\mathcal{O}_X\) 与 \(\mathcal{O}_Y\) 分离定义为:不存在 \(\mathcal{O}_Z\) 既是 \(\mathcal{O}_X\) 的部分又是 \(\mathcal{O}_Y\) 的部分:
\[
\mathbf{D}(\mathcal{O}_X, \mathcal{O}_Y) \triangleq \nexists \mathcal{O}_Z \; \mathbf{P}(\mathcal{O}_Z, \mathcal{O}_X) \land \mathbf{P}(\mathcal{O}_Z, \mathcal{O}_Y)
\]
我们可以通过原始图式关系 \(\mathbf{P}\)[Smith96] 来定义三段论关系,并建立三段论关系与图式关系之间的一一对应(\(\Leftrightarrow\))如下:
* “所有 \(X\) 是 \(Y\)” \(\Leftrightarrow\) “圆 \(\mathcal{O}_X\) 是圆 \(\mathcal{O}_Y\) 的一部分”,\(\mathbf{P}(\mathcal{O}_X, \mathcal{O}_Y)\);
* “有些 \(X\) 是 \(Y\)” \(\Leftrightarrow\) “圆 \(\mathcal{O}_X\) 不与圆 \(\mathcal{O}_Y\) 分离”,\(\neg\mathbf{D}(\mathcal{O}_X, \mathcal{O}_Y)\);
* “没有 \(X\) 是 \(Y\)” \(\Leftrightarrow\) “圆 \(\mathcal{O}_X\) 与圆 \(\mathcal{O}_Y\) 分离”,\(\mathbf{D}(\mathcal{O}_X, \mathcal{O}_Y)\);
* “有些 \(X\) 不是 \(Y\)” \(\Leftrightarrow\) “圆 \(\mathcal{O}_X\) 不是圆 \(\mathcal{O}_Y\) 的一部分”\(\neg\mathbf{P}(\mathcal{O}_X, \mathcal{O}_Y)\)。
图1:(a-d) 四种三段论关系及其空间关系;(e) 从两个前提出发,逻辑结论是“有些律师是科学家”,其否定是“所有律师是科学家”;(f) 三段论语句的空间陈述;(g) 不存在满足前提和结论 \(\mathbf{P}(\text{律师}, \text{科学家})\) 的球体配置;存在一种满足前提和结论 \(\neg\mathbf{P}(\text{律师}, \text{科学家})\) 的球体配置。
一个三段论推理可以是**可满足的**、**不可满足的**、**有效的**或**无效的**。**可满足**意味着存在一个前提和结论均为真的情形。**有效**意味着结论在前提为真的每一个情形下都为真[jeffrey81]。对于**有效**推理,其结论的否定是**不可满足的**;对于**无效**推理,其结论的否定是**可满足的**。在图式层面上,一个三段论推理是**可满足的**当且仅当我们可以构造一个欧拉图,例如,三个圆满足前提和结论的图式关系;否则,该推理将是**不可满足的**。在图1(g)中,我们成功构造了前提和结论“有些律师不是科学家”的欧拉图,因此该推理是**可满足的**。但是,我们无法构造前提和结论“所有律师是科学家”的欧拉图,因此该结论是**不可满足的**,从而其否定是**有效的**。
如果我们允许前提中的两个项交换位置,并固定结论语句中项的顺序,则会得到256种不同的亚里士多德三段论推理形式,其中24种(列于附录表3)是**有效的**[laird2012]。如果一个推理网络能够正确地确定任何**有效**三段论推理,并对**无效**推理构造反例,那么它就达到了三段论推理的严谨性。这一标准同样适用于使用分布外数据(非预期输入)进行推理的神经网络。
## 3 研究问题与最新进展
作为基本的逻辑演绎,三段论推理对于符号方法来说很简单[VukmirovicBCS19, BentkampBTV21]。然而,开发神经三段论模型极具挑战性,以至于十年前被认为是不可能实现的[laird2012]。考虑到:
1. 扩展定律[scalinglaw2020, scalinglaw24];
2. LLM的巨大训练成本(在数据、GPU和训练时间方面);
3. 递归神经网络的图灵完备性[SIEGELMANN1995, turingcomp23];
4. 在不使用训练数据的情况下达到符号级别三段论推理的球面神经网络[djl2024sphere, djl2025]。
我们的研究问题可以表述如下:如果训练数据量增加到无穷大,数据驱动的神经网络能否达到或无限接近这一水平?如果答案是否定的,那么监督式神经网络就无法达到符号级别逻辑推理的严谨性,因为三段论推理是更复杂逻辑推理形式的基础。
图2:用于三段论推理的Euler Net概述[WangJL18, WangJL20]。输入是两幅简单图像,每幅包含两个圆;输出是一个表示主语和谓语之间所有可能关系的向量。
监督式深度学习系统可以从符号或图像两种输入模式学习三段论推理。在符号设置下,大型语言模型(LLM)这一大数据驱动神经网络家族可用于三段论推理[MaTengyu2025, goedelprover2025, MaTengyu2025ICLR],例如Goedel-Prover[goedelprover2025]、自博弈LLM定理证明器[MaTengyu2025]。然而,在这些系统中,形式状态的正确性并非由LLM决定,而是由人类或符号证明器(如Isabelle、LEAN)决定。并且没有理论保证训练后的模型能够将其推理能力泛化到分布外的符号。这一局限与近期对大型语言模型在三段论推理任务上的评估结果一致。
一些研究探索了LLM在三段论推理(作为单步推理)中的表现。[Eisape2024]评估了PaLM 2系列LLM[palm22023]和Llama 2系列LLM[llama22023],显示PaLM 2-Small的最佳准确率约为75%,优于PaLM 2-Large,这并不严格遵循扩展定律。[syllogism24]评估了PaLM 2 LLM和GPT-3.5[openAI23],结论是LLM可能在熟悉情境中达到高于随机水平的性能,但在抽象推理(包括三段论)中表现出许多不完善之处。[syllobio2025]检查了Mistral LLM[mistral7b, mistral23]、Gemma LLM[gemma2024]、Llama-3 LLM[llama3]以及BioMistral LLM[biomistral2024],结论是零样本LLM在广义肯定前件上的平均准确率约为70%,在析取三段论上约为23%,并且零样本和少样本LLM都对表层词汇变化敏感。因此,它们远未达到高风险生物医学应用所需的可靠性,更不用说达到符号级别推理的严谨性了。[djl2025]评估了GPT-3.5-turbo和GPT-4在判断所有经典三段论推理类型的有效性时,使用了三种词汇形式:(1) 有意义的单词,(2) 简单的符号,(3) 长随机符号,显示ChatGPT(GPT-3.5-turbo)在使用简单符号的语句时达到了最佳性能(正确决策和解释)46.9%,而ChatGPT(GPT-4o)在使用长随机符号时达到了最佳性能82.4%。
链式思维(CoT)方法[wei2023COT, MaTengyu2025ICLR]是一种通过将任务分解为若干中间步骤来提升神经网络推理性能的策略。然而,这并不影响单步推理的性能。
图3:Euler Net的训练数据。相似文章
仅靠规模扩展无法实现理性人工智能
本文认为,当前大型语言模型无法实现真正的理性(即识别和切换框架的能力),其根本原因在于架构限制而非规模不足。文中引用反转诅咒、框架转移问题等实证失败案例,并指出仅靠规模扩展可能无法弥合这一差距。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
AI逻辑的蛮力方法确实遇到了瓶颈
文章认为自回归语言模型无法真正理解形式数学,需要验证方法,并引用了诸如Aleph等依赖严格数学证明的系统。
对于AI推理的“只需增加更多算力”的论点正变得越来越令人厌倦。
对AI推理扩展论点的一个批判性观点,认为自回归LLM无法仅通过增加计算量来实现正确性,并强调替代架构如EBM和形式验证在关键应用中更为优越。
Transformer中隐式演绎推理的缩放特性
本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明,算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。