首页
/
新闻
/
Google DeepMind Pre-Training Lead: How To Land a Job at a Frontier Lab | Vlad Feinberg
Google DeepMind Pre-Training Lead: How To Land a Job at a Frontier Lab | Vlad Feinberg
摘要
Google DeepMind预训练负责人Vlad Feinberg详细讲解了在顶尖AI实验室找到工作所需的关键技能,强调基础设施工程、缩放定律理解以及研究直觉的重要性,并指出所有实验室对不同技能组合都有极大需求。
暂无内容
查看缓存全文
缓存时间:
2026/06/16 02:59
### TL;DR
Google DeepMind预训练负责人Vlad Feinberg详细讲解了在顶尖AI实验室找到工作所需的关键技能,强调基础设施工程、缩放定律理解以及研究直觉(即“研究作为MDP”)的重要性,并指出所有实验室对不同技能组合都有极大需求。
## 工作的形态与技能需求
在顶尖实验室,大型语言模型将研究与产品紧密捆绑,这要求多种技能组合。Vlad Feinberg在帖子中指出了几个具体方向,其中**内核开发与底层工程**是核心需求——所有实验室和项目都极度渴求这类人才。具体来说,当研究项目涉及改变神经网络架构、改进KV缓存等时,必须能够高效实现这些新技术。整个技术栈的循环就是创建能在大规模下运行、具备高吞吐量和低延迟的软件产物,这与经典的工程后端思维紧密相连,是一个非常开放的专攻领域。
## 研究与应用的谱系
### 内部团队的分工
在GDM(Google DeepMind)内部有不同的关注领域。例如,有一个团队专注于如何使用Gemini大型语言模型改进搜索结果,这看似是LLM的应用版本,但实际上需要大量硬核研究,比如确保LLM的事实性、引用来源、评估来源质量(避免引用讽刺或玩笑内容)。即使在所谓的“应用AI”垂直领域,依然在进行研究。
### 纯粹研究与产品研究的连续体
也存在非常经典的LLM研究团队(如预训练、后训练),它们独立负责创建最先进的模型。但GDM的“纯粹研究”其重要程度取决于实现程度,团队既要交付模型、确保稳定训练(充当“守护者”),又要负责制造LLM的配方,无法分离这两种角色。因此,在一个从研究到应用的谱系中,每个人都需要灵活游走。
## 软件工程与AI研究员的谱系
### 基础设施投入驱动新技术
Vlad强调,很多新技术的发展都建立在基础设施投入上。以他的团队研究的**蒸馏**为例,为了将知识从教师模型传递给学生模型(涉及数万亿token的统计信息),需要投入数百万美元的浮点运算。这迫使团队优化系统,因为每一秒、每一字节都很关键。蒸馏基础设施经历了三到四代演变,每次都会重新思考系统设计,拓宽能力——例如花四个月重写蒸馏基础设施,从而带来对蒸馏缩放定律的全新理解,最终转化为强大的模型(如Flash 3.0)。这些投入始于经典的工程设计文档:思考正确的抽象、设计存储系统、支持跨数据中心的读写——这些都是经典的分布式系统问题。
### 新的交叉技能
如果将一个普通后端工程师放到研究团队中,调整模型架构会比纯架构工作更难。这里存在一个交叉点:**研究品味**——一种高级直觉,告诉你如何推进一个项目中的多个里程碑构成的DAG(有向无环图)。
#### 研究作为MDP
雅各布·斯坦哈特教授的文章《研究作为MDP》(马尔可夫决策过程)是很好的框架。在研究项目中,节点之间的转换是随机的:某些想法可能成功也可能不成功,而且有些节点可能事先未知(隐藏的MDP)。这与软件工程不同——后者的DAG具有确定性,可以列出所有路径并找到最短路径。而在研究中,你必须考虑成功率、投入时间以及对不同比率的先验估计。这种在尝试之前就能建立方法成功可能性的直觉,就是“研究品味”,是需要专门培养的技能。
## 后端工程师在研究团队中的不足
如果后端工程师直接进入研究团队,首先会遇到的问题是**缺乏对所处研究领域的背景理解**。研究工作需要一种谦逊的视角:必须理解人类在此主题上的前沿成果总和,才能推动前进。因此,需要具备有效浏览历史引用树的能力,快速评估高价值论文,而不必完整阅读每一篇。此外,必须拥有机器学习和计算机科学的背景知识(包括基础数学和课程)才能真正理解现有方法论。无法深入理解已有成果,就很难改进它。
## 缩放定律:核心预训练概念
Vlad的团队研究蒸馏,而深入理解LLM蒸馏的关键是**缩放定律**。人们常关注幂律结构和指数,但重要的不是函数形式,而是:**对于给定的缩放LLM配方,随着你投入越来越多的浮点运算次数,必须能够预测最终的测试损失**。为什么我们需要预测泛化误差?在经典机器学习中(如ImageNet),可以通过训练和验证集迭代不同想法。但在语言模型世界,每次预训练运行投入的浮点运算次数比以往任何时候都要多——这相当于ImageNet问题的**一次性版本**:你永远看不到完整的训练数据集。你必须在MNIST、CIFAR上练习,然后基于这些想出能直接在ImageNet上工作的方法。如果只是单独做这些,就像很多人尝试过的那样。
## 如何开始:Vlad的面试建议
如果你完成了缩放定律练习,并把做练习的视频发送给Vlad,他会很乐意面试你。
---
Source: [Google DeepMind Pre-Training Lead: How To Land a Job at a Frontier Lab | Vlad Feinberg](https://www.youtube.com/watch?v=cDyi91onoJ8)
相似文章
X AI KOLs Timeline
采访 Google DeepMind 预训练领域负责人 Vlad Feinberg,探讨如何在前沿 AI 实验室(如 Google DeepMind、Anthropic 或 OpenAI)找到工作,涵盖所需技能、研究 vs 工程的区别以及扩展定律。
X AI KOLs Timeline
Google DeepMind 预训练负责人 Vlad Feinberg 指出,内核开发和低层性能工程是AI前沿实验室需求旺盛的技能。
X AI KOLs Timeline
A detailed guide on ML job interviews for top AI labs, sharing the author's experience getting offers from DeepMind and others, emphasizing the need for strong engineering and math skills beyond research papers.
X AI KOLs Timeline
一条推文分享了在顶尖AI实验室找工作的职业建议,推荐了内核工作(例如FlashAttention、量化)和智能体研究方面的技能,并重点介绍了关于2位LLM量化的QuIP论文。
Reddit r/singularity
本文总结了Google DeepMind三位研究员关于推理、多模态生成(Omni)、编码与自我改进的深度对谈,强调视觉与动态思考将超越文本思维链,并探讨了世界模型和合成训练案例的未来趋势。