@berryxia: 讲真,这种言论只有真正牛的人才敢说啊! 本科生就可以来完成LLM的数学训练! Terence Tao 最近在访谈里把 LLM 最核心的谜题直接说透了。 这位 Fields Medal 得主、数学界最高荣誉,被称作数学界诺贝尔奖,当代最顶尖…
摘要
Terence Tao 指出当前 LLM 背后的数学其实很简单,但真正的谜题在于自然语言数据的中间地带导致模型行为不可预测。
查看缓存全文
缓存时间: 2026/05/17 05:29
讲真,这种言论只有真正牛的人才敢说啊! 本科生就可以来完成LLM的数学训练!
Terence Tao 最近在访谈里把 LLM 最核心的谜题直接说透了。
这位 Fields Medal 得主、数学界最高荣誉,被称作数学界诺贝尔奖,当代最顶尖的数学家之一,说:
今天大模型背后的数学其实非常简单。
线性代数、矩阵乘法,再加一点微积分,本科生就能完全掌握。
我们清楚知道怎么训练、怎么运行它们。
但真正让人困惑的是:为什么它们在某些任务上表现惊人,在另一些任务上却突然翻车,而且我们完全无法提前预测。
核心原因在于现实世界的数据,自然语言文本。
它既不是纯噪声,也不是完全结构化的数据,而是坐在“中间地带”:部分有序、部分随机。目前数学界对这个中间区域的理论还非常薄弱。
所以我们能造出强大的模型,却没法可靠预测它的能力边界。
这个“简单机制 vs 不可预测行为”的矛盾,才是当前 AI 最核心的 puzzle。
完整访谈视频在这里(Dr Brian Keating 频道):
Rohan Paul (@rohanpaul_ai): Terence Tao says the math behind today’s LLMs is actually simple. Training and running them mostly uses linear algebra, matrix multiplication, and a bit of calculus, material an undergraduate can handle. We understand how to build and operate these models.
The real mystery is
To be honest, only truly badass people dare to say stuff like this!
Undergrads can handle the math training for LLMs!
Terence Tao recently laid bare the core puzzle of LLMs in an interview.
This Fields Medal winner—the highest honor in mathematics, often called the Nobel Prize of math—one of the top mathematicians of our time, said:
The math behind today’s large models is actually incredibly simple.
Linear algebra, matrix multiplication, plus a bit of calculus—undergrads can master it completely.
We know exactly how to train them and how to run them.
But what truly baffles people is: why do they perform astonishingly on some tasks but suddenly crash and burn on others, and we can’t predict it in advance at all.
The core reason lies in real-world data, natural language text.
It’s neither pure noise nor fully structured data, but sits in the “middle ground”: partly ordered, partly random. Right now, the math world’s theory for this intermediate zone is still very weak.
So we can build powerful models, but we can’t reliably predict their capability boundaries.
This contradiction of “simple mechanisms vs. unpredictable behavior” is the core puzzle of AI today.
Full interview video here (Dr. Brian Keating’s channel) :
完整视频:
相似文章
@rohanpaul_ai: 陶哲轩表示,如今LLMs背后的数学其实很简单。训练和运行它们主要用到线性代数,…
陶哲轩指出,现代LLMs背后的数学很简单,主要使用基本的线性代数和微积分,但模型在不同任务上的性能不可预测性仍是一个谜,原因在于自然语言数据的复杂本质。
@haider1: Yann LeCun 表示,LLMs 在语言本身就是推理基础的领域(如数学和代码)中最强…
Yann LeCun 指出,LLMs 在语言作为推理基础的领域(如数学和代码)中最强,但它们并非有创造力的数学家、软件架构师或计算机科学家。
@Phoenixyin13: 这是我最重要的信息转发之一。 这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…
转发介绍一篇由清华姚班毕业生Guowei Xu(目前在哈佛)撰写的论文,该论文精准指出了LLM搜索的两个致命瓶颈:稀疏验证和候选局限,对提升推理能力有重要意义。
关于LLM“数学证明”声明的问题(15分钟阅读)
本文批判了媒体对LLM局限性数学证明的夸大报道,特别指出关于自我提升的条件性结论如何经常被曲解为普遍不可能性。
@AYi_AInotes: 做LLM生产落地的开发老哥们,可以看Andrew Ng刚出的这门课,免费版可以看所有视频和基础代码。 这个课程不是又一遍Attention is All You Need的数学推导, 也不是又一套调prompt的玄学技巧, 更不是又一个从…
Andrew Ng 推出了一门新的 LLM 生产落地课程,免费版可观看所有视频和基础代码。课程深入讲解 LLM 内部机制、推理优化(如量化、KV Cache、Flash Attention、投机解码)以及硬件感知优化,由 AMD 工程副总裁主讲,旨在帮助开发者将 Transformer 从学术概念转化为可调试、可优化的工程工具。