@rohanpaul_ai: 陶哲轩表示,如今LLMs背后的数学其实很简单。训练和运行它们主要用到线性代数,…

X AI KOLs Following 新闻

摘要

陶哲轩指出,现代LLMs背后的数学很简单,主要使用基本的线性代数和微积分,但模型在不同任务上的性能不可预测性仍是一个谜,原因在于自然语言数据的复杂本质。

陶哲轩表示,如今LLMs背后的数学其实很简单。训练和运行它们主要用到线性代数、矩阵乘法及一点微积分,本科生就能掌握的素材。我们懂得如何构建和操作这些模型。 真正的谜团是,为什么它们在某些任务上表现出色,而在其他任务上却失败,以及为什么我们无法提前预测。我们缺乏预测跨任务性能的有效规则,因此进展很大程度上是经验性的。 一个关键原因在于现实世界数据的本质。纯噪声是完全可以理解的,完全结构化的数据也是完全可以理解的,但自然文本介于两者之间,部分结构化、部分随机。针对这一中间状态的数学很薄弱,类似于物理学在原子与连续介质之间的介观尺度上遇到的困难。 由于这一差距,我们能够描述机制,但尚无法解释能力飞跃或给出可靠的任务级预测。这种不匹配——简单机制与难以预测的行为——是核心谜题。 ---- 视频来自'Dr Brian Keating' YouTube频道(评论中的链接)
查看原文
查看缓存全文

缓存时间: 2026/05/16 13:19

Terence Tao表示,当今LLMs背后的数学实际上很简单。训练和运行它们主要使用线性代数、矩阵乘法和一点微积分,这些内容本科生也能掌握。我们理解如何构建和操作这些模型。

真正的谜团是,为什么它们在有些任务上表现如此出色,而在另一些任务上却失败,并且为什么我们无法提前预测这一点。我们缺乏跨任务预测性能的良好规则,因此进展在很大程度上是经验性的。

一个关键原因是现实世界数据的性质。纯噪声已被充分理解,完全结构化的数据也被充分理解,但自然文本介于两者之间,部分结构化,部分随机。针对这种中间状态的数学理论很薄弱,类似于物理学在原子和连续体之间的介观尺度上面临的困境。

由于这一差距,我们可以描述机制,但尚无法解释能力跃升或给出可靠的任务级预测。简单的机制与难以预测的行为之间的不匹配,是核心难题。


视频来自’Dr Brian Keating’的YT频道(链接在评论区)

相似文章