@geoffreyhinton：我刚看了一场Adam Brown关于AI对物理学未来影响的精彩讲座

X AI KOLs Following 2026/06/28 16:30 新闻

ai-impact physics large-language-models scaling-laws ai-progress future-of-science

摘要

Geoffrey Hinton强调Adam Brown的讲座，讲述了LLMs在物理学上从学前水平进步到博士水平的能力，扩展定律和基准测试显示其快速进展。

我刚看了一场Adam Brown关于AI对物理学未来影响的精彩讲座 https://t.co/EjiKpoiKZr

查看原文

查看缓存全文

缓存时间: 2026/06/28 22:08

我刚刚看了一场Adam Brown关于人工智能对物理未来影响的精彩演讲 https://t.co/EjiKpoiKZr

TL;DR

一位转行AI研究的理论物理学家描述了大型语言模型如何在短短几年内从学前水平进步到博士级别研究，以及这对物理学的未来意味着什么。

格局：从沙子到硅片再到思想

“我们生活在文明史上一个非凡的时刻，”演讲者开场说，“我们集体弄明白了如何将沙子提纯为硅，将硅制成芯片，将芯片组装成神经网络，现在又训练这些网络进行思考。”

这位理论物理学家写了大约40篇论文，但停了下来，因为“感觉像是一种罪恶的享受——手工撰写理论物理论文一篇接一篇，而我应该做的，是为一台能够以工业规模输出知识的机器贡献力量。”

与早期的计算机辅助工具（袖珍计算器、算盘）不同，大型语言模型（LLM）不是专用工具。“大型语言模型有能力完成我作为理论物理学家的每一项工作。它是一种通用智能。”

大型语言模型如何制造：成长而非编程

LLM是受人类大脑神经元排列启发的神经网络。本十年初，最大的模型大约有10亿参数；现在它们有数万亿参数（但仍远低于人脑约100万亿个突触）。

“它们是成长出来的，而不是编程出来的。”从随机权重开始，训练模型根据一段文本预测下一个单词。每次正确预测都会强化一条突触路径；错误预测则进行惩罚。在看过一百万单词后，输出仍然是胡言乱语；经过数百亿单词后，它就能在几乎任何话题上进行智能对话。

这被称为预训练。然后是后训练（“精修阶段”），模型被训练得礼貌且乐于助人，而不仅仅是预测下一个单词。

规模定律：物理学家的贡献

“物理学家喜欢规模定律——那是我们的拿手好戏。”经验性的规模定律（例如动物代谢率与体质量的关系）在双对数坐标上通常是直线。这对LLM来说也是如此：如果你投入更多计算资源并适当扩展规模，性能在双对数图上会线性提升。

“这个图简单到连风险投资家都能理解。”它告诉投资者，投入计算量会带来更好的性能。最初的规模定律（由物理学家在2020年发现）跨越了八个数量级；现在它又延伸了八个数量级，仍然成立。

用于训练的资源呈指数级增长：自2010年以来，FLOPS每年增长4倍，成本每年增长2.7倍。然而，进步的最大驱动力是算法改进——人类智慧不断削除低效环节。

基准测试的突飞猛进：从学前到博士

进展通过基准测试来衡量，这些基准测试很快就被“杀死”：它们在大约18个月内从“太难而无法使用”变成“太简单而无法使用”。

MATH：高中数学

2020年，MATH基准测试（高中数学题）显示出LLM得分6%——几乎不比随机猜测好。一个预测市场称模型到2025年能达到50%。创建者难以置信：“如果我想象一个系统能答对超过一半的题目，我会非常惊讶。”

下一个系统（Minerva）几乎立即达到了50%。到2024年中，一个名为Max Math的系统达到了90%，超过了人类专家水平。然后，六个月后，现成的模型几乎获得了满分。

在最难的20%题目（第五级）中，同样的模式重复出现：从接近随机到饱和只用了2.5年。

GPQA：研究生科学

GPQA模拟第一年博士生考试。例如：一个关于宇宙微波背景的问题。“如果你在相邻领域，你根本不知道如何回答。”

从2024年到2025年，模型从随机猜测一路超过人类专家水平（≈70%）到接近完美。“GPQA已经死了。它遭受了所有基准测试的命运。”

怀疑论者可能会说模型只是记住了答案。但留出测试——包括演讲者自己私人研究生考试中的广义相对论和量子力学题目——显示出同样的表现。“从2023年底开始，接下来的18个月里，模型达到了100%的准确率。我的基准测试，遗憾地被杀死了。”

国际数学奥林匹克竞赛

就在一年多前，一位图灵奖得主告诉演讲者，LLM永远无法做出像解IMO题目那样有创意的事情。去年夏天，一个系统获得了金牌（6道题中做对5道）。IMO主席说：“他们的解答令人惊叹……清晰、精确，而且大多数很容易理解。”

“现在世界上只有极少数人类比AI更擅长做IMO题目。”

新研究：半人马模式

到目前为止的所有基准测试都是测试已知问题。下一步是产生新知识。演讲者的团队使用了一种“半人马”风格：一半人类，一半LLM。

“输出……是迄今为止LLM在数学领域做的最令人印象深刻的事情。”一位合著者，斯坦福大学教授兼美国数学学会主席说：“我们发现Gemini的论据并非对现有证明的简单重新包装。它是那种我自己会引以为豪的洞察力。”

证明是在人类指导下组合起来的，但LLM提供了关键的新论证。

剩余挑战与未来之路

尽管取得了这些进展，当前的LLM仍有四个主要弱点：

自主性低
学习慢
规划能力差
错误纠正能力差

每一个问题都有人在积极解决，并且在过去一年中都有改进，但没有一个完全解决。

“不起作用的是，直接给你最喜欢的LLM说：‘请为我发明一种全新的量子引力理论。’它会输出AI垃圾——根本不值得你花时间。”

未来充满不确定性。演讲者提到《金融时报》的一张图，显示未来十年AI驱动GDP增长预测的方差极大。一种可能性是我们进入平台期；另一种是继续快速推进。鉴于基准测试在几个月内被摧毁的模式，后者似乎更合理。

“一个很好的经验法则：我们进展的速度大约是人类学生的四倍。每过一年，我们就向前推进四年的未来。”

来源: YouTube – @geoffreyhinton: “I just watched an amazingly good lecture by Adam Brown about the future impact of AI on physics” (https://www.youtube.com/watch?v=Mw60FH5iflI)

@geoffreyhinton：我刚看了一场Adam Brown关于AI对物理学未来影响的精彩讲座

TL;DR

格局：从沙子到硅片再到思想

大型语言模型如何制造：成长而非编程

规模定律：物理学家的贡献

基准测试的突飞猛进：从学前到博士

MATH：高中数学

GPQA：研究生科学

国际数学奥林匹克竞赛

新研究：半人马模式

剩余挑战与未来之路

相似文章

@RohOnChain: 刚刚与一位正在构建下一代前沿大语言模型的MIT计算机科学毕业生交谈。他告诉我这场由OpenAI研究员关于……的讲座

@ProfBuehlerMIT: 对于科学而言，AI主权和基于物理的推理是不可妥协的。但如何教像Ge…这样的小型LLM呢？

@snowboat84: https://x.com/snowboat84/status/2062686432335184321

@AnatoliKopadze: AI 教父："如果你今晚睡得很香，那你可能没听懂这场讲座。" 这场 47 分钟的讲座是过去几个月里我看到的最好的…

@polydao: 这个1小时+的斯坦福AI图像生成讲座，是那种能让你升职的知识——不是因为它复杂……

提交意见反馈