关于LLM“数学证明”声明的问题(15分钟阅读)

TLDR AI 新闻

摘要

本文批判了媒体对LLM局限性数学证明的夸大报道,特别指出关于自我提升的条件性结论如何经常被曲解为普遍不可能性。

系统持续变得更好,而定理不断出现来解释为什么它们不能——两者都可以是真的,因为它们通常针对的是不同的事情。
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:32

# “数学证明”LLM相关说法的问题 来源:https://webdirections.org/blog/the-problem-with-mathematically-proven-claims-about-llms/ ## 一种反复出现的修辞手法如何持续证明错误的东西 如今在AI评论中,已经出现了一种可识别的模式。大致流程如下: 一篇论文出现在arXiv上。它包含真正的数学——定义、引理、定理,有时还不止一个。该定理证明,在特定假设条件下,某个形式化对象存在特定局限性。 随后,这篇论文被另一位作者——博主、LinkedIn发帖者、记者——以这样的标题传播:*“研究人员从数学上证明AI无法X。”* 标题四处传播。假设条件却没有。 我想选取三个近期的例子,展示它们共享的结构模式,并说明为什么这个模式很重要。 ## 样本一:AI无法自我改进 本文的直接导火索是一篇题为“AI Cannot Self Improve and Math behind PROVES IT!”(https://smsk.dev/2026/04/26/ai-cannot-self-improve-and-math-behind-proves-it/)的博客文章,它总结了一篇近期arXiv预印本论文,作者为Hector Zenil(伦敦国王学院),题为“On the Limits of Self-Improving in Large Language Models: The Singularity Is Not Near Without Symbolic Model Synthesis”(https://arxiv.org/abs/2601.05280)。 博客文章的表述毫不妥协。它开篇声称“一篇新的arXiv论文正式证明,LLM中的递归自我改进在数学上是不可能的——所有人都认为会导致超级智能的机制,实际上是一条通往模型崩溃的单行道。”随后又说:“人们提出的超越人类局限的机制——用AI生成的数据进行训练以摆脱有限的人类知识供给——在数学上被证明会破坏模型对现实的表征。逃生通道坍塌成了陷阱。”更富诗意地:“宇宙不会给噪音复利。” 实际论文比其摘要者更为谨慎。Zenil将递归自训练建模为概率分布上的动态系统,假设基于KL散度的目标函数和逐渐消失的新鲜真实数据供给(形式上,外生信号比例 $\alpha_t \to 0$),并证明在这些假设下系统会收敛到退化的不动点。这是对Shumailov等人2023年《Nature》论文中经验性描述的模型崩溃现象的形式化。 而被通俗化文章剥离掉的,正是Zenil本人关于其结果适用范围的所有论述。论文第5节开头这样写道: > 这些结果并不能证明所有形式的递归自我改进都会崩溃。 他继续说道: > 如果 $\inf_t \alpha_t > 0$,即系统持续接收外生信号,那么向 $P$ 的收缩仍然保持活跃。在固定公理、外部定义目标或不变验证器(例如形式化指定环境)下运行的系统不满足 $\alpha_t \to 0$ 条件。 在结论中: > 这一不可能性结果是条件性的而非普遍的。……因此,我们的结果并未排除外部锚定系统中的改进;它们排除的是完全自主的递归密度匹配作为无限智能增长路径的可能性。 证明说的是:**如果你用KL目标函数,在没有足够新鲜信号的情况下递归地自训练自己的样本,你会崩溃。** 标题说的是:**AI无法自我改进。** 这不是同一个陈述。两者之间的鸿沟被一种未经审视的假设填满:即“自我改进”必然意味着幼稚的自噬。但这并非自我改进在实践中任何有效运作中的样子。 AlphaZero通过自我对弈递归自我改进,因为围棋有确定性的胜负真理。RLVR之所以有效,是因为单元测试、证明检验器和评分器提供了外部信号。从更强的教师模型进行蒸馏有效。经过验证器筛选的合成数据有效。这些机制的全部要点在于循环并非封闭的——存在某种外部真理来源来约束每一次迭代。 关于封闭循环的定理,是一个关于无人正在构建的系统的定理,而论文本身也说明了这一点。 ## 样本二:幻觉不可避免 这种模式比这更早就出现了。2024年1月,Xu、Jain和Kankanhalli发表了“Hallucination is Inevitable: An Innate Limitation of Large Language Models”(https://arxiv.org/abs/2401.11817)。 论证很优雅。他们定义了“形式世界”的可计算函数。他们将幻觉定义为: > 当LLM无法精确复现可计算函数的输出时,幻觉发生。 随后他们援引学习理论中的对角化论证,证明没有任何可计算枚举的LLM族能学习所有可计算函数,并得出结论:任何LLM都必然在某些输入上产生幻觉。 *“幻觉在数学上不可避免”*的标题被广泛传播。而被埋没的是,为了让证明成立,“幻觉”必须被定义成什么。 在该论文的定义下,每个有限系统都“幻觉”,因为没有有限系统能计算所有可计算函数。按这个标准,你的口袋计算器对Ackermann函数产生幻觉,你对十五位素因数分解产生幻觉。 证明说的比标题暗示的少;它说的是任何通用问题求解器都会在某个地方、某件事情上出错。而且再次强调,论文本身比其接受度更为谨慎。Xu等人明确指出了出路: > 知识增强型LLM……通过训练样本以外的途径接收关于真实函数 $f$ 的额外信息。因此,定理3在此不适用。 论文关于实际影响的部分以“所有*仅*用输入-输出对训练的LLM,当被用作通用问题求解器时,都会产生幻觉”(强调为笔者所加)开头。限定语在通俗化版本中消失了。 整个现代技术栈——检索、工具使用、代码执行、形式化验证器、知识库——按论文自己的承认,都在定理适用范围之外。 2025年Suzuki等人的跟进论文在其副标题中精辟地指出了这一点(https://arxiv.org/abs/2502.12187):*“Hallucinations are inevitable but can be made statistically negligible. The ‘innate’ inevitability of hallucinations cannot explain practical LLM issues.”* 数学上的不可避免性与实际发生率是不同的问题。前者几乎无法告诉我们关于后者的任何信息。 ## 样本三:数学天花板 同样的形状,再次出现在2025年和2026年。Varin Sikka和Vishal Sikka的论文“Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models”(https://arxiv.org/abs/2507.07505)被广泛报道为证明了LLM智能体存在根本性的“数学天花板”(https://www.webpronews.com/ai-agents-math-ceiling-proof-of-transformer-limits/)。 核心定理很直接: > 给定长度为 $N$ 的提示,其中包含复杂度为 $O(N^3)$ 或更高的计算任务,且 $d < N$,LLM或基于LLM的智能体将不可避免地在其响应中产生幻觉。 证明只有一段:引用Hartmanis-Stearns时间层级定理;指出LLM的每token计算量为 $O(N^2 \cdot d)$;得出结论:需要渐近更多时间的任务无法被正确执行。 这是真的。它同时也是,按构造而言,一个关于**LLM核心前向传播**的结果。 Sikkas在讨论中明确指出了这一点: > 虽然我们的工作关注的是单个LLM的局限性,但多个LLM协同工作显然可以实现更高的能力。……各种方法正在开发中,从复合系统到用严谨方法增强或约束LLM。 换句话说:一个无辅助的、固定维度的transformer,在评估复杂度超过其前向传播复杂度的任务时会失败。是的。而这几乎无法告诉我们一个配备了工具的LLM能做什么。 智能体不在证明的假设范围内运行。他们使用草稿纸。他们调用求解器。他们调用MathJS、Lean和Wolfram。他们编写Python并运行它。 定理说的是**无工具的transformer**无法做固定上下文中的TSP。实际部署的系统是**带工具的transformer**,而相关的经验问题——复合系统能有多好?——根本未被定理触及。 论文作者对此有清醒认识。Tudor Achim在WebProNews报道中被引用时采取了建设性观点:“我认为幻觉是LLM固有的,也是超越人类智能所必需的。”他公司的赌注是他们所谓的“数学超级智能”——经过验证的细分领域,其中形式化检验提供外部信号。这正是对证明的正确回应。却不是标题所采纳的回应。 ## 这种手法的结构 三篇论文,三种不同的否定性主张,相同的结构模式。运作方式如下: **1. 取被攻击主张的最极端版本。** 递归自我改进必须意味着闭环自噬。幻觉必须意味着无法计算任何可计算函数。推理必须意味着在固定前向传播预算内无辅助地执行任务。 在每种情况下,选择最强、最卡通化的解读,因为最强的解读是数学能够处理的。Zenil几乎明确指出了这一点:他专门建模“自主机制”,因为那是定理适用的机制。 **2. 关于该解读证明一个定理。** 定理通常是正确的。数学内容是真实的。KL流确实在消失外生信号下崩溃。可计算枚举族确实无法穷尽可计算函数。固定精度的transformer确实无法在 $O(N^2 \cdot d)$ 内解决任意大规模的计算问题。这些都没有争议。 **3. 在通俗化过程中丢弃假设。** 条件性的变成无条件的。**“在这些假设下”**变成**“原则上”**。**“对于这类系统”**变成**“对于AI”**。 作者自己的限定——*结果并不能证明所有形式的递归自我改进都会崩溃*;定理3对具有外部知识的系统*不适用*;多个LLM协同工作*显然可以实现更高的能力*——在传播中消失了。 读者遇到标题时,没有简便的方法恢复丢失的限定条件。限定条件正是无法在标题中存活的东西。 **4. 用氛围感点缀。** *“宇宙不会给噪音复利。”* *“逃生通道坍塌成了陷阱。”* *“这就像试图通过拽自己的鞋带把自己拔离地面。”* 美学借用了数学的严肃性——QED、优雅、不可避免——并将其嫁接到数学并未确立的主张上。形式做了内容无法完成的工作。 结果是一种穿着白大褂的氛围洗钱机。一个狭窄、有条件的技术结果,通过若干阶段被转化为形而上学结论。而且由于来源论文是真实的,数学是真实的,结论借用了它并未赢得的可信度。 ## 为什么这很重要 如果技术结果本身不有趣,对此吹毛求疵将是吝啬的。它们确实有趣。模型崩溃是真实现象,值得理解。可计算性界限值得了解。无辅助transformer的复杂度上限确实告诉我们应该把努力放在哪里。论文本身大体上是好的。 损害发生在论文之上的推理层——通俗化、标题、LinkedIn帖子。丢失的是AI进步在过去三年中实际来自哪里的真正运作原则,而这恰恰**不是**闭环魔法。 它是外部纪律的耐心构建:评分器、检验器、工具、有确定真理的环境、人在回路中、形式化验证器。在验证廉价的地方,递归改进不是推测性的——它正在交付。在验证困难的地方,幻觉在理论上并非不可避免——它在经验上常见,而工作是找到更好的验证器。 应用AI中的“苦涩教训”大致说的是:停止试图把限制设计进去;构建循环,让循环教你。 这些“数学证明”的结果,粗读之下告诉人们循环无法工作。仔细读——至少我讨论的三篇中有两篇明确指出了这一点——它们告诉我们循环必须具有什么形状。 这种修辞手法还有一个值得指出的阶级层面。**“数学证明”**是一个具有巨大社会力量的短语。它暗示问题已经解决,暗示分歧不仅是错误的而且是数盲的,暗示祭司阶层已经发话。要拆解假设需要么数学素养,要么愿意被告知你不懂数学。这种不对称有利于标题。 这就是为什么这个模式不断重复——它在注意力上获利,而纠正的成本落在别人身上。 每篇论文的诚实版本,事实上就是其作者所写的版本。 Zenil的结论:*递归自我改进,如果被框定为渐进式自包含的生成性重训练,在标准分布学习动态下无法产生无界增长。* Xu等人的告诫:*所有仅*用输入-输出对训练的LLM,当被用作通用问题求解器时,*会产生幻觉*。 Sikkas的:多个LLM协同工作*显然可以实现更高的能力*。 每一个都是谨慎、有条件、有用的结果。没有一个说的是“AI无法X”。 ## 一个温和的建议 我并非在与数学争论。数学是好的。我在与一种推理习惯争论:从**关于理想化对象X的定理**到**关于真实世界对象Y的事实**,而Y不是X,且通俗化文章假装它是。 下次你看到某篇文章声称数学已经证明了关于LLM的某种否定性结论时,要问的问题不是**证明是否正确?**它几乎肯定是。问题是: **确切建模了什么?证明需要哪些假设?我们实际运行的系统满足这些假设吗?——通常最致命的——论文作者自己是否否认了强解读?** 在我看过的每个例子中,第三个问题的答案是**不**,第四个问题的答案是**是**。 建模对象与部署系统之间的差距,正是所有有趣工作发生的地方。 *Eppur si muove.* 系统持续变好。定理持续到来解释它们为何不能。两者都可以是真的。它们通常关于的是不同的事情。

相似文章

MA-ProofBench:一种用于数学分析中定理证明的LLMs两级评估

arXiv cs.AI

MA-ProofBench是一个新的形式化基准,用于评估LLMs在数学分析中的定理证明能力,包含200个问题,分为两个难度级别。最佳模型GPT-5.5在Level I上仅达到16%,在Level II上为5%,突显了非形式化推理与形式化推理之间的显著差距。

LLMs 并非你所认为的黑箱

Hacker News Top

一篇总结 Anthropic 2025 年关于机制可解释性论文的文章,表明 LLM 并非黑箱,电路追踪可以揭示多步推理和人类可识别的概念。

使用LLM会让我变得更笨吗?

Reddit r/artificial

这篇文章重新构架了使用LLM是否让人变笨的问题,转而分析它们如何改变学习的分布和本质,认为虽然总的思考时间可能相似,但思考的主题和深度发生了变化,并存在错误信息风险和某些认知技能的丧失。

引用布莱恩·坎特里尔

Simon Willison's Blog

布莱恩·坎特里尔批评LLM缺乏人类懒惰带来的优化约束,认为LLM会不必要地使系统复杂化而非改进,并强调人类时间限制推动了高效抽象的发展。

大语言模型实际工作原理

Lobsters Hottest

深入剖析现代大语言模型的工作原理,涵盖从分词到下一个词预测的核心机制,无需复杂数学知识。