@rohanpaul_ai: 陶哲轩表示,如今LLMs背后的数学其实很简单。训练和运行它们主要用到线性代数,…
摘要
陶哲轩指出,现代LLMs背后的数学很简单,主要使用基本的线性代数和微积分,但模型在不同任务上的性能不可预测性仍是一个谜,原因在于自然语言数据的复杂本质。
查看缓存全文
缓存时间: 2026/05/16 13:19
Terence Tao表示,当今LLMs背后的数学实际上很简单。训练和运行它们主要使用线性代数、矩阵乘法和一点微积分,这些内容本科生也能掌握。我们理解如何构建和操作这些模型。
真正的谜团是,为什么它们在有些任务上表现如此出色,而在另一些任务上却失败,并且为什么我们无法提前预测这一点。我们缺乏跨任务预测性能的良好规则,因此进展在很大程度上是经验性的。
一个关键原因是现实世界数据的性质。纯噪声已被充分理解,完全结构化的数据也被充分理解,但自然文本介于两者之间,部分结构化,部分随机。针对这种中间状态的数学理论很薄弱,类似于物理学在原子和连续体之间的介观尺度上面临的困境。
由于这一差距,我们可以描述机制,但尚无法解释能力跃升或给出可靠的任务级预测。简单的机制与难以预测的行为之间的不匹配,是核心难题。
视频来自’Dr Brian Keating’的YT频道(链接在评论区)
相似文章
@berryxia: 讲真,这种言论只有真正牛的人才敢说啊! 本科生就可以来完成LLM的数学训练! Terence Tao 最近在访谈里把 LLM 最核心的谜题直接说透了。 这位 Fields Medal 得主、数学界最高荣誉,被称作数学界诺贝尔奖,当代最顶尖…
Terence Tao 指出当前 LLM 背后的数学其实很简单,但真正的谜题在于自然语言数据的中间地带导致模型行为不可预测。
@haider1: Yann LeCun 表示,LLMs 在语言本身就是推理基础的领域(如数学和代码)中最强…
Yann LeCun 指出,LLMs 在语言作为推理基础的领域(如数学和代码)中最强,但它们并非有创造力的数学家、软件架构师或计算机科学家。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
@rohanpaul_ai: Yann LeCun 表示,LLM 在价值或投资上并非泡沫——它们将驱动许多实际应用并证明当前基础设施投资的合理性。
Yann LeCun 认为,LLM 在价值或投资上并非泡沫,因为它们将推动许多实际应用并证明当前基础设施支出的合理性;真正的泡沫在于假设 LLM 能够实现人类级别的思考。
@techNmak:我终于找到有人解释为什么LLM推理与常规推理根本不同……没有过度……
一条推文分享了一个链接,提供了一个清晰易懂的解释,说明为什么LLM推理与传统推理不同,并以一个随意的走路视频呈现。