@snowboat84: 今天讨论点硬核的。一个问题：AI用到了什么程度的数学? 从工具和模型本身看，AI用到的数学平均年龄150岁，绝大部分是19世纪中叶之前就有的：矩阵乘法、梯度下降、链式求导、傅里叶、内积、概率，大都是本科前两年的内容。但AI涌现出的一些现…

X AI KOLs Timeline 2026/05/23 15:29 新闻

ai mathematics scaling-law emergent-abilities double-descent in-context-learning representation-geometry

摘要

讨论AI用到的数学主要是19世纪之前的线性代数、微积分等，但涌现现象如Scaling Law、涌现能力、双下降、情境学习和表示几何缺乏数学解释，类比1900年物理学的乌云，认为可能推动21世纪数学发展。

今天讨论点硬核的。一个问题：AI用到了什么程度的数学? 从工具和模型本身看，AI用到的数学平均年龄150岁，绝大部分是19世纪中叶之前就有的：矩阵乘法、梯度下降、链式求导、傅里叶、内积、概率，大都是本科前两年的内容。但AI涌现出的一些现象，目前最高深的数学都解释不了。我整理了几个排名靠前的： - Scaling Law：把模型做大、数据加多、算力堆够，模型的损失会沿着一条极其干净的幂律曲线下降，log-log 图上几乎是一条直线。一个有几千亿参数、内部高度非线性的庞然大物，宏观行为竟然如此有规律。为什么会这么规则，没人知道。 - Emergent Abilities：三位数加法、多步推理、写代码这些能力，小模型几乎无能为力，但是模型参数量越过某个阈值，模型变得足够大，模型突然就都会了。这在物理上和水变成水蒸气是同一类现象——相变。但水的相变有完整理论，AI 的“能力相变”什么模型都没有， - Double Descent：传统的统计学习理论告诉我们：模型越大越容易过拟合，测试误差应该先降后升。实际观察到的误差曲线是：先降、再升、然后继续往下降，最终掉到比经典理论的最优点更低的位置。一整套统计学习理论被大模型颠覆，为什么？没有公认解释。 - In-Context Learning：GPT-3之后出现的新现象。给模型几个例子，它不更新任何参数就能完成新任务。按理说"学习"必须改变参数，可大模型在推理过程中能现学现用。这意味着模型内部藏着某种我们看不见的"学习的学习"。数学上这是什么?也没人能说清楚。 - Representation Geometry：模型内部到底学到了什么？A社的可解释性研究发现了一个奇怪的现象：单个神经元同时编码了好几个互不相关的概念，比如同一个神经元既对"金门大桥"有反应,也对"日语"有反应,还对"DNA 序列"有反应。按理说一个维度只能表达一件事,但神经网络似乎找到了某种"叠加"技巧，在有限的维度里塞进了远超维度数的特征。为什么会这样？没有数学能解释。类比一下物理，十九世纪末的物理学主要靠微积分就够用了。但当时天空中飘着几朵"乌云"：黑体辐射、光速实验，当时的理论解释不了。这几朵乌云后来炸出了量子力学和相对论，逼出了20世纪最新的数学（泛函分析、微分几何、数学结构化)。 AI现在的处境很像1900年的物理学：工具老得不能再老，结果好得超出预期，但留下了一堆解释不了的现象，现有的数学工具完全无能为力。如果历史会押韵，这些“AI的乌云”很可能正是21世纪数学下一次大发展的引爆点。

查看原文

查看缓存全文

缓存时间: 2026/05/24 04:22

今天讨论点硬核的。一个问题：AI用到了什么程度的数学? 从工具和模型本身看，AI用到的数学平均年龄150岁，绝大部分是19世纪中叶之前就有的：矩阵乘法、梯度下降、链式求导、傅里叶、内积、概率，大都是本科前两年的内容。

但AI涌现出的一些现象，目前最高深的数学都解释不了。我整理了几个排名靠前的：

Scaling Law：把模型做大、数据加多、算力堆够，模型的损失会沿着一条极其干净的幂律曲线下降，log-log 图上几乎是一条直线。一个有几千亿参数、内部高度非线性的庞然大物，宏观行为竟然如此有规律。为什么会这么规则，没人知道。
Emergent Abilities：三位数加法、多步推理、写代码这些能力，小模型几乎无能为力，但是模型参数量越过某个阈值，模型变得足够大，模型突然就都会了。这在物理上和水变成水蒸气是同一类现象——相变。但水的相变有完整理论，AI 的“能力相变”什么模型都没有，
Double Descent：传统的统计学习理论告诉我们：模型越大越容易过拟合，测试误差应该先降后升。实际观察到的误差曲线是：先降、再升、然后继续往下降，最终掉到比经典理论的最优点更低的位置。一整套统计学习理论被大模型颠覆，为什么？没有公认解释。
In-Context Learning：GPT-3之后出现的新现象。给模型几个例子，它不更新任何参数就能完成新任务。按理说“学习“必须改变参数，可大模型在推理过程中能现学现用。这意味着模型内部藏着某种我们看不见的“学习的学习“。数学上这是什么?也没人能说清楚。
Representation Geometry：模型内部到底学到了什么？A社的可解释性研究发现了一个奇怪的现象：单个神经元同时编码了好几个互不相关的概念，比如同一个神经元既对“金门大桥“有反应,也对“日语“有反应,还对“DNA 序列“有反应。按理说一个维度只能表达一件事,但神经网络似乎找到了某种“叠加“技巧，在有限的维度里塞进了远超维度数的特征。

为什么会这样？没有数学能解释。

类比一下物理，十九世纪末的物理学主要靠微积分就够用了。但当时天空中飘着几朵“乌云“：黑体辐射、光速实验，当时的理论解释不了。这几朵乌云后来炸出了量子力学和相对论，逼出了20世纪最新的数学（泛函分析、微分几何、数学结构化)。

AI现在的处境很像1900年的物理学：工具老得不能再老，结果好得超出预期，但留下了一堆解释不了的现象，现有的数学工具完全无能为力。

如果历史会押韵，这些“AI的乌云”很可能正是21世纪数学下一次大发展的引爆点。

相似文章

@snowboat84: 补充说明一下，关于AI涌现出来的那些现象，scaling law、emergence、双重下降、表征几何，目前相关讨论的论文已经汗牛充栋。但这里有一个很大的问题：他们都在用计算机科学家的方式思考，而不是物理学家的方式思考。什么是计算机科…

X AI KOLs Timeline

作者评论当前AI研究过多使用计算机科学的思维方式而缺乏物理学方法，提出需要建立如'Cyber Space'的理想系统来奠定理论基础。

@paperpaper886: 上周有和数学系的朋友讨论过AI4Math的现状和未来，他说现在的AI作为辅助工具已经足够强大，但如果AI要做独立自主的discovery还有一段路要走

X AI KOLs Timeline

讨论了AI在数学领域的现状与未来，引用事例称ChatGPT 5.5 Pro自主解决了高维计算几何中死卡多年的最远点对问题，显示AI在数学发现上的潜力。

@Xudong07452910: AI 开始做数学之后，一个更危险的想法可能会出现：既然机器能证明定理，那人类数学家是不是没那么重要了？这篇 essay《Automation Without Understanding》讨论的就是这个问题。作者的核心观点很直接：数学…

X AI KOLs Timeline

AI系统在数学上取得突破，帮助推翻Erdős关于平面单位距离的长期猜想，但一篇essay警告：自动化越强，人类理解并审计机器推理的能力越重要，而美国数学人才培养管道正因预算削减而退化。

@ai_super_niko: https://x.com/ai_super_niko/status/2070299861757616606

X AI KOLs Timeline

本文讨论了在AI能写代码的时代，计算机从业者是否还需要学习技术。作者认为，语法和API等表层技术正在贬值，但算法、设计架构和判断力等深层能力变得更加重要，学习重心应从初级技能转向高级工程师所需的知识。

人工智能与数学的未来（2分钟阅读）

TLDR AI

Grant Sanderson 与 Dwarkesh Patel 探讨了人工智能在数学领域的快速进展、概念突破的本质，以及随着AI的进步这对其他领域意味着什么。

相似文章

@paperpaper886: 上周有和数学系的朋友讨论过AI4Math的现状和未来，他说现在的AI作为辅助工具已经足够强大，但如果AI要做独立自主的discovery还有一段路要走

@Xudong07452910: AI 开始做数学之后，一个更危险的想法可能会出现： 既然机器能证明定理，那人类数学家是不是没那么重要了？ 这篇 essay《Automation Without Understanding》讨论的就是这个问题。 作者的核心观点很直接：数学…

@ai_super_niko: https://x.com/ai_super_niko/status/2070299861757616606

人工智能与数学的未来（2分钟阅读）

提交意见反馈

@Xudong07452910: AI 开始做数学之后，一个更危险的想法可能会出现：既然机器能证明定理，那人类数学家是不是没那么重要了？这篇 essay《Automation Without Understanding》讨论的就是这个问题。作者的核心观点很直接：数学…