vivek (@itsreallyvivek) 在X上
摘要
一条关于在机器学习中培养真正研究技能的有深度的帖子,涵盖了如何独立选题、培养品味、提升信息输入以及通过写作来厘清思路。
查看缓存全文
缓存时间: 2026/06/15 15:38
如何做好研究
没人真正教你做研究。你得到一张桌子、一个别人挑好的问题,以及一句模糊的指令——要搞出点新东西。于是大多数人只能反向工程,从他们能看到的东西——论文、帖子、公告——去揣摩这份工作,最终学会的是如何看起来像个研究者,而非如何成为研究者。真正的技能是一堆更小的技能,而几乎每一个都可以刻意训练。
自己挑选问题
理查德·汉明在贝尔实验室有个习惯,让他在午餐时不太受欢迎。他会问坐在身边的人,他们领域里重要的问题是什么,然后问为什么他们不去做那些问题。人们纷纷换桌子。这个问题让人刺痛,因为大多数人没有好答案。我们不选择问题,我们吸收问题——从导师那里、从某个大实验室上个季度宣布的方向里、从这周大家在推上引用转发的那篇论文中。
吸收来的问题麻烦在于,你只拿到了结论,却没有推理过程。你知道某个著名实验室关心某个方向,但不知道为什么,不知道他们期望发现什么,不知道什么会让他们放弃。等他们转向,你要一年后才能知道。而一个已经流行的方向,你是在和一千个开始更早、算力更多的人赛跑。
约翰·舒尔曼的机器学习研究指南把工作分为两种模式。一种是你阅读文献,寻找可以改进的地方。另一种是你选一个你真正希望存在的结果,然后反向推导出实验。他主张第二种,而安静的理由是:这能制造原创性。一个你真正在意的目标,会把你拖入任何综述论文都没覆盖的领地。
品味,同时被当作天赋来讨论。它更像一块肌肉。在每次实验前预测结果。遮住论文的结果部分,仅从方法猜出数字。记下本月发布的内容中哪些两年后会重要,稍后检查命中率。预测加修正,重复几百次,这是任何好模型被训练的方式,包括你脑子里的那个。
升级你的输入
共享的阅读清单产生共享的想法。如果你的信息食谱是 arXiv 的流行页加上群聊过滤后剩下的东西,那么你必然会和别人同时得出同样的结论,这使得那些结论几乎一文不值。
旧材料被严重低估了。这个领域会延迟重放自己的过去:混合专家模型可追溯到1991年,LSTM 到1997年,反向传播在1986年成为主流。2019年,里奇·萨顿花了大约一千字写下《苦涩的教训》,它对这个领域走势的预测比十倍长度的综述更好。1952年,克劳德·香农做过一次关于创造性思维的演讲,他的开场动作是把一个问题缩小到几乎微不足道,攻克小版本,然后一点一点地重新引入困难。仅这一招就能帮你翻越的障碍,比任何现代生产力建议都多。
广度与深度同样重要。可解释性毫不客气地从神经科学借用方法。评估设计就是穿着白大褂的机制设计。对 GPU 如何实际移动内存的工作理解,能让你在基准测试出来之前就知道哪些架构论文注定失败。而诚实的统计学可能是 ML 中最稀缺的技能——很多已发表的严谨性其实是带误差棒的感觉。
还有一件事。读论文本身,而不是总结它的帖子。附录里埋着尸体,局限性部分通常是整篇文档中最诚实的一段。
全都写下来
保罗·格雷厄姆指出,一个想法在试图用语言表达之前可能感觉完全成形。纸张能发现你大脑掩盖的漏洞:你从未检验的假设、实际上并不成立的步骤、两个悄悄矛盾的主张。
费曼的规则是,第一个必须避免欺骗的人是你自己,因为你最容易上当。写作是有史以来最便宜的防护。达尔文更进一步,将其程序化:任何与他的理论相悖的事实,都要当场写下来,因为他发现自己的记忆删除不利证据的速度比删除有利证据更快。你的记忆对失败实验也是同样的。保持日志:假设、设置、预期、结果、更新后的信念。重读上个月的记录,其谦卑程度是任何审稿人都无法比拟的。
然后,把其中一些公之于众。Olah 和 Carter 的研究债务文章论证了,领域会因未消化的想法而窒息,而清晰的解释本身就是真正的贡献,而不是服务性工作。今天许多从事可解释性的人,是通过可读的博文而非会议论文找到这个领域的。公开写作的积累同时也能成为你所能拥有的最强凭证,因为它是你思维方式的不可伪造的样本。
缩短循环
关于 Alec Radford 的故事很少涉及单一的天才灵感。它们涉及数量:每天更多的实验、每周更多的错误想法被丢弃、比任何人更新都快的世界模型。这才是真正的游戏。研究速度主要就是你发现自己犯错的速度。
这使得工具成为一流的研究活动。启动一次实验应该是一个命令。画图应该是另一个命令。每次实验都应该是可通过配置复现的,比较两个实验应该只需要几秒钟,而不是一下午的考古挖掘。Karpathy 的训练神经网络秘诀中有一个步骤能百倍回报:在规模化训练之前,先过拟合单个 batch。三十秒,一半的 bug,消失。把所有东西缩小到廉价,做对了,再花算力。
放弃“工程是二等公民”的想法。在前沿,这两项工作已经融合。能够构建框架、评估和数据管线的研究者,才是那些假设真正得到检验的人。其他人都在排队等着。
盯着输出
下降的 loss 曲线不是分析,是安慰。你的实验抛出的信息远多于你消费的:转录、失败案例、分布的奇怪尾部。大部分信息死在日志文件夹里,无人阅读。
Karpathy 的秘诀在写任何训练代码之前就开始了:花数小时手工处理原始数据。大多数 ML 的 bug 活在数据中,它们静默失败。什么都不会崩溃。你只是得到一个平庸的模型和一个关于原因的错理论。
Andrew Ng 教授同一个不起眼的技巧超过十年,因为没有什么能胜过它:拉出一百个失败案例,全部阅读,分类,攻击最大的一堆。它对模型有效,对评估也有效——一个你从未读过转录的基准,是你实际上并不理解的基准。一个真正奇怪行为的转录,教给你的比下一个百分点的准确度多得多。
有目的地闲逛
你的第一个子领域是时间上的偶然,所以把它当作偶然。在可解释性、评估、强化学习、系统中花真实时间,然后再决定你住在哪。这个领域的某个角落,你的特殊怪异会成为不公正的优势,找到它的唯一方法是在多个地方交学费。没有人能豁免学费。
每个想法都先跑一个一次性版本,让大多数在早期死掉。把基线调到心痛为止,因为 ML 的坟墓里填满了在正确调参的基线面前蒸发的收益,而审稿人是了解这个事实最糟糕的来源。逐一消融,直到你知道哪个组件带来了结果。通常是一个,而且通常不是标题里那个。
广度也是保险。子领域会饱和,所有子领域都会,通常在它们在 Twitter 上达到峰值之后。那些能在这些过渡中持续产出的人,是那些已经熟悉邻近领域的人。
找到你的人
哈明注意到一个模式:谁最终做了重要的工作。关着办公室门的同事在任何一个给定年份里产出更多;而开着门的同事做了重要的工作,因为干扰带来了世界真正需要的信息。你的开着的门可能是一个收件箱。保持那样。
慷慨在研究中的复合回报无与伦比。重复一个结果并公布你的发现。发布你为自己构建的工具。用通俗语言解释困难的事情。回报会从侧面到来,几个月后,以合作、引用或你无法申请的职位的形式。也公开你的半成品想法,因为在时间线上犯错远比在印刷品中犯错便宜。而一个告诉你想法很烂、在你投入三个月之前就告诉你的合作者,比算力更宝贵。那种关系买不到,只能赢取。
长远棋局
巴斯德说运气青睐有准备的头脑,哈明在此基础上建立了整个职业哲学:知识和生产力像利息一样复合。每日的边缘进步单独看微不足道。你读什么、记什么、循环跑多快、和谁争论。给他们几年时间,它们会产出从外部看起来像运气的职业生涯。在感觉不必要的时候就开始复合。未来的你早就知道,这是最便宜的部分。
相似文章
@jxmnop: https://x.com/jxmnop/status/2066668040557867368
一条推特讨论,为进行人工智能研究提供哲学和实践建议,强调阅读与实践相结合,深入理解基础而非追逐潮流,保持初学者心态,以及纪律和开放心态的重要性。
@itsreallyvivek: https://x.com/itsreallyvivek/status/2062924410588406118
反思性帖子认为,要在前沿AI实验室取得成功,需要在没有地图的情况下运作,研究是关于应对不确定性,而工程则是将复杂系统压缩成有用的抽象概念。
禅与机器学习研究的艺术(11分钟阅读)
一篇博客文章,反思成为机器学习研究员的过程,与禅修进行类比,强调阅读、构建、专注于基础以及不追求基准的重要性。
@Xudong07452910: 最近看到 Anthropic 研究员 Vivek @itsreallyvivek 的一篇长帖,讲怎么真正训练自己的研究能力。 我最有感触的一点是:很多时候,我们以为自己在做研究,其实只是在追热点、刷 Arxiv、看别人讨论什么,然后把那些…
分享Anthropic研究员Vivek关于如何训练研究能力的观点,强调自主选择问题、实验前预测、直面失败等习惯,认为研究能力是一种可训练的朴素习惯。
@MinLiBuilds: 我希望我本科研究生阶段能读到这么好的文章,我的职业发展会完全不一样。 这是她做 research 的方法论,非常聪明扎实,有复利性。 译文: vivek @itsreallyvivek 如何做好研究(how to be good at r…
分享了一篇关于如何做好AI研究的方法论文章,强调选择问题、阅读文献、写作记录等技巧,适用于科研人员。