@snowboat84: 今天讨论点硬核的。一个问题:AI用到了什么程度的数学? 从工具和模型本身看,AI用到的数学平均年龄150岁,绝大部分是19世纪中叶之前就有的:矩阵乘法、梯度下降、链式求导、傅里叶、内积、概率,大都是本科前两年的内容。 但AI涌现出的一些现…
摘要
讨论AI用到的数学主要是19世纪之前的线性代数、微积分等,但涌现现象如Scaling Law、涌现能力、双下降、情境学习和表示几何缺乏数学解释,类比1900年物理学的乌云,认为可能推动21世纪数学发展。
查看缓存全文
缓存时间: 2026/05/24 04:22
今天讨论点硬核的。一个问题:AI用到了什么程度的数学? 从工具和模型本身看,AI用到的数学平均年龄150岁,绝大部分是19世纪中叶之前就有的:矩阵乘法、梯度下降、链式求导、傅里叶、内积、概率,大都是本科前两年的内容。
但AI涌现出的一些现象,目前最高深的数学都解释不了。我整理了几个排名靠前的:
-
Scaling Law:把模型做大、数据加多、算力堆够,模型的损失会沿着一条极其干净的幂律曲线下降,log-log 图上几乎是一条直线。一个有几千亿参数、内部高度非线性的庞然大物,宏观行为竟然如此有规律。为什么会这么规则,没人知道。
-
Emergent Abilities:三位数加法、多步推理、写代码这些能力,小模型几乎无能为力,但是模型参数量越过某个阈值,模型变得足够大,模型突然就都会了。这在物理上和水变成水蒸气是同一类现象——相变。但水的相变有完整理论,AI 的“能力相变”什么模型都没有,
-
Double Descent:传统的统计学习理论告诉我们:模型越大越容易过拟合,测试误差应该先降后升。实际观察到的误差曲线是:先降、再升、然后继续往下降,最终掉到比经典理论的最优点更低的位置。一整套统计学习理论被大模型颠覆,为什么?没有公认解释。
-
In-Context Learning:GPT-3之后出现的新现象。给模型几个例子,它不更新任何参数就能完成新任务。按理说“学习“必须改变参数,可大模型在推理过程中能现学现用。这意味着模型内部藏着某种我们看不见的“学习的学习“。数学上这是什么?也没人能说清楚。
-
Representation Geometry:模型内部到底学到了什么?A社的可解释性研究发现了一个奇怪的现象:单个神经元同时编码了好几个互不相关的概念,比如同一个神经元既对“金门大桥“有反应,也对“日语“有反应,还对“DNA 序列“有反应。按理说一个维度只能表达一件事,但神经网络似乎找到了某种“叠加“技巧,在有限的维度里塞进了远超维度数的特征。
为什么会这样?没有数学能解释。
类比一下物理,十九世纪末的物理学主要靠微积分就够用了。但当时天空中飘着几朵“乌云“:黑体辐射、光速实验,当时的理论解释不了。这几朵乌云后来炸出了量子力学和相对论,逼出了20世纪最新的数学(泛函分析、微分几何、数学结构化)。
AI现在的处境很像1900年的物理学:工具老得不能再老,结果好得超出预期,但留下了一堆解释不了的现象,现有的数学工具完全无能为力。
如果历史会押韵,这些“AI的乌云”很可能正是21世纪数学下一次大发展的引爆点。
相似文章
@snowboat84: 补充说明一下,关于AI涌现出来的那些现象,scaling law、emergence、双重下降、表征几何,目前相关讨论的论文已经汗牛充栋。但这里有一个很大的问题:他们都在用计算机科学家的方式思考,而不是物理学家的方式思考。 什么是计算机科…
作者评论当前AI研究过多使用计算机科学的思维方式而缺乏物理学方法,提出需要建立如'Cyber Space'的理想系统来奠定理论基础。
@snowboat84: 这是《当物理遇上AI系列》的下篇。物理在AI中的作用,主要可以分为以下四层:(1)第一层为最底层,贡献了计算的骨架,能量、熵、自由能这些嵌进了AI的训练目标里。(2)第二层为中层,物理塑造了网络的形状,Hopfield的Ising能量函数…
本文探讨了物理学在人工智能中的四层作用,从底层计算骨架到方法论层,认为物理学的方法论正从自然界迁移到AI领域。
Terence Tao on How AI Is Changing Mathematics
数学家陶哲轩认为AI正在降低数学研究中的认知摩擦,使实验和大胆想法成为可能,并有望成为主流工具;他还预测未来数学发表将分享探索路径而非仅最终结果。
@snowboat84: https://x.com/snowboat84/status/2062686432335184321
这篇文章探讨了物理学与深度学习之间的深层联系,分析了Scaling Law、涌现等现象与物理学中临界标度律、相变等概念的同构性,并梳理了物理方法论在AI中的应用现状与前景。
@FakeMaidenMaker: AI 工程师全栈路线:带你从零基础开始从数学到大模型到 Agent 全部搞懂 网上 AI 资料一堆,但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐,真正从数学到 LLM 到 age…
A free, open-source AI engineering curriculum that covers math, LLMs, and agents across 20 phases and 435 lessons in Python, TypeScript, Rust, and Julia, designed to fill gaps in fragmented AI tutorials.