禅与机器学习研究的艺术(11分钟阅读)
摘要
一篇博客文章,反思成为机器学习研究员的过程,与禅修进行类比,强调阅读、构建、专注于基础以及不追求基准的重要性。
成为一名AI研究员的入门路径其实很简单:阅读和动手构建。科学见解似乎是随机产生的。成功的一个重要特质就是投入时间和精力。要成为世界级的研究员,需要极大的自律。
查看缓存全文
缓存时间: 2026/06/17 00:52
# 禅与机器学习研究之道
来源:https://blog.jxmo.io/p/zen-and-the-art-of-machine-learning
所以你想做 AI 研究?确实,没有人*真正*教你如何去做。至少不是直接教。但事实证明,入门方法相当简单:不过是(i)阅读与(ii)动手构建的结合。两者缺一不可。通过这种结合,你才能成为一名研究者。
事实证明,成为优秀研究者的过程与学习冥想并无二致:
**I.**
入门方法相当简单,无非是(a)阅读和学习,与(b)动手构建的结合。你不能只做其中一件。通过这种结合,你才能成为一名研究者。
有一句禅语大致是这样的——
> *顿悟之日,我们打坐;未悟之日,我们打坐。*
做研究基本也是如此。科学洞见似乎会随机降临。大多数日子它们不会来。成功的一个重要特质就是投入时间与精力。和任何其他追求(音乐、体育、销售等)一样,如果你想成为世界级,就需要极大的自律。
Noam Shazeer 在 SwiGLU 论文中对成功研究想法的固有随机性做了巧妙的致意:
“我们无法解释这些架构为何有效;我们将它们的成功,如同一切事物一样,归因于神的恩典。”
相关的一点是,*阅读过多论文也是可能的*。如果你想解决一个问题,经过验证的成功路径是:尝试一个方案,试验它,遇到瓶颈,再尝试解决,只有当自己想不出办法时才去查阅文献。
**II.**
好吧,那我应该做什么呢?
如果你刚刚起步,我诚实的回答是:我认为具体主题并不那么重要。
不过,我会提醒你不要选择那些流行了不到六个月的东西。AI 发展很快,但基础思想四十年来并未改变。如果你想以此为职业,我不建议你过于纠结 2026 年的概念:harness、agent、上下文工程等等。这些都会变。
相反,回归基础你会学到更多:了解什么是交叉熵。手动为一个小分布计算它。深入理解 SVD,直到你可以在脑海中可视化它。不要过多思考针对编码的 RL,而是学习策略梯度背后的思想、它们为何有用,以及为何几十年来一直流行。
再提一个元评论:如果你的研究项目最好的结果是在现有基准上拿到更高分数,那你挖得不够深。通常,现有数据集无法测试新的有趣能力。
Jason Wei 也有类似观点(https://x.com/_jasonwei/status/1875268874859344349):
> 在 AI 研究中,一个被低估但偶尔决定成败的技能(十年前几乎不存在)是,能否找到一个真正能检验你正在开发的新方法的数据集。
至于具体建议,我给不出;那必须由你自己发现。深入钻研,聚焦基础,不要追逐基准。待在水中,想法自会浮现。
**III.**
> 初学者的心里有许多可能性;专家的心里却很少。——铃木
如今硅谷常有人说,AI 研究经验在现代可能反而对良好的研究直觉有害。我近距离观察过这一点;许多缩放时代之前的研究者仍热衷于设计在小规模有效、但显然会在大规模测试时失败的方法。
OpenAI 的一个令人印象深刻之处是,公司里的大多数人(至少在技术方面)都在 35 岁以下。ChatGPT 背后的许多重要决策者不到 30 岁。从中我们可以看出,由于 AI 是如此新兴的领域(ChatGPT 还不到四年!),*没有人拥有巨大优势*,因为没有人研究它很久了。
简而言之,抱住想法太久可能反而有害。保持开放心态,拒绝让自我蒙蔽判断。
**IV.**
灵感总在你最不经意时降临。
以下是两个历史例子:
- 苯环结构的发现(https://en.wikipedia.org/wiki/August_Kekul%C3%A9) famously 来自梦境:这种结构从未被见过,却被想象成一条咬住自己尾巴的蛇。
- 奥泽匹克基本上来自蜥蜴(https://www.sciencealert.com/ozempic-literally-came-from-a-monster-and-its-not-alone)。它所模仿的 GLP-1 激素最初发现于吉拉毒蜥的毒液中,这种沙漠蜥蜴一年只吃几次。不知何故,我们成功让它对人类也起作用。
一个重要启示是:*要做好研究,你必须做研究之外的事情*。我个人大多数“顿悟时刻”都发生在远离键盘的时候,尤其是散步时。
达尔文、特斯拉、费曼、亚里士多德。历史上许多伟大的思想家都宣扬过活动双腿、散散步的非凡益处。即使你不做研究,也应该多散散步。
**V.**
即使灵感降临,大自然也未必仁慈:即使实现完美,我们的想法可能在某种根本意义上并不*真实*。或者可能是,或者看似是。当结果出来时,我们该如何反应?
我们可以从禅宗借鉴另一个原则:(实验的)平等心。
分析实验时,我们可以采用以下心态:
结果是好的?*太好了!*
结果不好?*也还不错!*
两种结果教会你同样多的信息。事实上,从一连串负面结果中往往能比从单个正面结果中学到更多。“哇,还是不行——难以置信!”这才是健康的研究态度。
反之,你不应该对好结果过于兴奋。实际上,大多数好结果都源于一个 bug;并非结果本身好,而是你测量错误,从而说服了自己。每个人都希望自己的想法有效——这是好事!——但所有经验丰富的研究者共有的一个特质是极度怀疑,尤其面对那些好得令人难以置信的结果时。不幸的是,它们几乎总是如此。
**VI.**
> 花朵不会去想与旁边的花竞争。它只是绽放。
研究极其结果导向。尤其是在学术界,很容易看着别人纸面上的成功,转而陷入情绪。
人们成功的理由各不相同。有些人运气好。特别是学术评审过程,既不连贯也不公平。当你所在领域有新研究发表且你钦佩时,请问自己这个问题:
> *我是否已经达到了足够的深度,足以自己做出这一发现?*
现在有两种可能的结果。如果答案是肯定的——太好了。你的过程是合理的,但你没有做出这个发现;你可能当时在忙,在做别的事,但你是能做到的。
如果答案是否定的——那就把它当作深入钻研的动力。
**VII.**
> 开悟前,砍柴挑水;开悟后,砍柴挑水。
许多成功项目背后通常有数百小时的苦工。Andrej Karpathy 曾手动标注了 ImageNet 的很大一部分(https://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/)。SWEBench 的创建者(https://arxiv.org/abs/2310.06770)在许多方面具有前瞻性,花费数百小时精心筛选 GitHub 数据,以获得一小组可用于评估的、可处理的 GitHub 问题。
如果你观察优秀研究者的职业生涯,他们很可能在成功之前花了大量时间默默无闻地工作。习惯这一点。想法越有野心、越前瞻,彻底实现和评估它所需要的工作可能就越多。这种困难是特性,不是缺陷。
**VIII.**
Collin Raffel 是一位令人敬佩的研究者,他曾提到,他认为许多想法失败不是因为想法不好,而是因为代码中有研究者从未发现的 bug。
总体来说,这是非常棘手的问题,尤其是在 LLM 的世界里。现代深度学习软件栈极其复杂,bug 可能存在于任何地方:训练、推理、harness、数据中。
如果看起来不对劲,你不能跳过。你可以而且应该记录许多指标,并努力理解它们全部。如果某些指标看起来与预期不符,你需要弄清楚原因,因为可能有问题。我之前发推说过,研究者最重要的特质之一是健康的偏执(https://x.com/jxmnop/status/2062995349573382219)。保持多疑!
**IX.**
一个实际的问题是,大多数涉及深度学习的实验耗时太长。训练模型可能需要数周或数月。如今,评估单个任务的模型可能需要数天。
尤其是使用 agent 编码时,我们的本能可能是并行启动许多实验,让它们都以缓慢的速度运行。虽然简单的并行化有一定帮助,但上下文切换(https://en.wikipedia.org/wiki/Human_multitasking)是一种有害的模式。
设计符合人体工效学的研究流程、支持快速实验反馈至关重要。缩短训练的冷启动时间,制作能快速返回结果的小型评估。我非常欣赏 Keller Jordan 的 nanoGPT speedrun(https://github.com/kellerjordan/modded-nanogpt),它展示了从快速迭代周期中我们能学到多少东西。
(但话说回来,最终有些结果不可避免地耗时较长。在可能的情况下,维持多天的状态,并理解上周的实验今天结束时得到的结果,是一项极其有用的技能。)
**X.**
编码 agent 能让你更快行动,但它们使两个问题变得更糟:我们更难理解基本细节,并且更频繁地切换上下文。优秀的研究者会主动对抗这两种力量。
Codex 可以为你编写训练脚本;它甚至能执行脚本、在运行中照看它、解释结果,并通过电子邮件发送给你。但它可能遇到错误,并未经你许可就缩短了系统提示。它可能为了在合理时间内运行评估而缩短序列长度。它可能因为未指定而运行了错误的配置。
从工程角度看,这些都是小错误,容易修复。但从科学角度看,它们很严重:这样的小遗漏可能实质性改变论文的重要结果,因此不可接受。*小心龙*。即使代码不是你写的,如果你想理解结果,就需要理解产生结果的系统。
我实话告诉你——这很难!把理解外包给机器很有诱惑力。对于许多应用来说,这样更快。但做好科学需要了解整个系统如何工作,这样才能确保对系统的观察是真实的。没有捷径可走。
**XI.**
总结:光有才华不足以成为成功的研究者。*气质*被严重低估了。保持好奇与坚持,保持深思与细致,想法自会浮现。
#### 关于本文章的讨论
### 准备好获取更多内容了吗?
相似文章
@jxmnop: https://x.com/jxmnop/status/2066668040557867368
一条推特讨论,为进行人工智能研究提供哲学和实践建议,强调阅读与实践相结合,深入理解基础而非追逐潮流,保持初学者心态,以及纪律和开放心态的重要性。
vivek (@itsreallyvivek) 在X上
一条关于在机器学习中培养真正研究技能的有深度的帖子,涵盖了如何独立选题、培养品味、提升信息输入以及通过写作来厘清思路。
垃圾时代的品质
一篇反思性的博文,引用罗伯特·波西格的《禅与摩托车维修艺术》,探讨随着生成式AI工具泛滥,科技行业中的质量危机与虚无主义,呼吁重新关注工艺与价值观。
@lateinteraction: 把链接放在这里,给那些想直接看长文的人:https://jacobxli.com/blog/2026/machine-stud…
介绍“Machine Studying”作为一个问题,AI代理必须从语料库中自主发展专业知识,超越RAG或长上下文,并提出了StudyBench基准进行评估。
立场:思想应成为机器学习研究的核心
这篇立场论文认为,机器学习研究应优先考虑思想而非基准和理论保证,提出了一种“Ideas First”框架,该框架重视行为特征和定制实验,以促进公平性和科学理解。