个人研究工作与面试准备的一些见解
摘要
本文讨论了当前AI在研究级工作中的局限性,认为虽然AI在使用现有包和工程解决方案方面表现出色,但在真正研究所需的深度假设驱动迭代方面仍然举步维艰。作者还警告了关于AI能力的极端观点,并以AlphaFold为例说明结构化问题是最困难的部分,而非优化本身。
我想精确地阐述一个我思考了一段时间的问题,因为我看到人们在谈论AI和机器学习工作时存在两种错误模式:1. “AI只是个花哨的自动补全,真正的研究永远安全。” 2. “智能体已经能做所有事情,研究员的角色基本消失了。” 两种都错了。更真实的情况更有趣——而且在某种特定方式上更令人不安。
**机器学习的三个层次**
让我画一条我认为在讨论中未被充分利用的界限。
层次1——包使用者。你知道sklearn、PyTorch、HuggingFace里有什么。你知道如何调用它们。你能把现有组件拼成一个流程。这是基本功,而AI在这方面已经比大多数人类做得更好。不是“堪比”——是更好。
层次2——工程师。给定一个问题,你选择合适的方法,根据手头数据调参,正确评估,然后部署。你理解不同方法间的权衡。这是大多数应用机器学习岗位在生产中实际需要的能力。AI正迅速接近人类水平,在许多狭窄任务上已经超越。
层次3——研究者。你理解为什么某个方法在你的特定数据分布上失败。你可以假设失败模式——是归纳偏置有误?数据质量问题?损失函数与实际目标不匹配?——然后设计有针对性的实验来验证这个假设。接着迭代。持续数周。针对同一个问题。
我的主张:AI在层次1和2上已经达到或接近人类水平。在层次3上,它仍然存在真实的、结构性的限制——原因并非大多数人想的那样。
**工作中的实际情况**
如果你参与过实际工作项目,你会发现一个真正的项目不仅仅是构建一个智能体或以通用方式打乱工作流程。相反,它需要解决某些关键问题。对于这些问题,LLM或智能体可以作为辅助,但核心难点仍然在于解决特定问题的算法。也就是说,我们如何做出更准确的预测,并扩展问题的边界以更好地适应一些长尾情况?这些是目前AI无法解决的问题。AI可以从头编写一个项目或构建一个平台,但它无法针对特定问题优化某一特定算法。例如,它无法判断平台的推荐算法是否合理、是否能满足公司现有业务的需求,并在业务需求与预算之间取得平衡。这些问题听起来琐碎甚至有点无聊。我认为这正是许多公司向AI转型时遇到的问题。不使用AI,会担心错过重大变革;但采用AI后,却发现AI能快速解决的问题大多已被公司完成。而公司期望AI实现的优化和改进,AI仍然难以做到,仍需员工解决。
那么?
**AlphaFold的误解**
AlphaFold经常被引用为AI能做科学的证明。但AlphaFold实际展示的是更具体的东西:一旦人类花费数年时间将蛋白质折叠问题结构化——定义物理约束、输入表示(多序列比对、结构模板)、评估指标(GDT-TS)——AI在这个明确定义的空间内搜索时表现得异常出色。这个结构化工作是最困难的部分。它需要数十年积累的领域专业知识、仔细思考问题到底是什么(相对于容易测量的是什么),以及判断哪些约束是承重的判断力。当问题变成一个良好指定的优化目标时,AI就接管了,并且比人类做得更好。但让问题变成一个良好指定的优化目标这一行为?那仍然是人类的工作。
这种模式在AI4Science中随处可见:一旦问题成型,AI便在搜索中占主导地位。而问题成型本身仍然是一项深度的人类任务。
**为什么层次3对当前AI来说是结构性困难——这并非智力问题**
这里我想反驳一种常见的说法。人们常说AI不能做研究,因为它“缺乏真正理解”或“没有真正推理”。也许吧。但我认为有一个更具体、更少哲学色彩的解释。
研究级工作本质上是一个多周的反馈循环:运行实验 → 观察失败 → 更新心智模型 → 形成新假设 → 运行实验。
关键词是“更新你的心智模型”。一个研究者针对同一个问题工作三个月,积累的是不可替代的东西:一种关于这个特定问题的精细直觉,由每次失败实验留下的“伤疤组织”构建而成。o3可以在单次对话中解决奥数级别的数学题。这很了不起。但它不记得上周二它尝试过类似分解并因某种原因失败。它无法构建那种来自持续、有状态地对一件事投入而产生的问题特定直觉。每次对话都是从头开始。
这对于完成任务来说没问题——甚至是最优的。但对于科学来说,这是一种结构性限制,因为科学的价值往往在于重复失败所积累的语境。瓶颈不是智力。是连续性。
**这在当前实际意味着什么**
AI压缩层次2工作带来的实际后果,我认为没有被足够重视。两年前需要5人应用机器学习团队的工作,现在通过强大的AI工具1-2人就能完成。这不是推测——这是我在关注的团队中观察到的现实。压缩是真实的,而且正在加速。
这并不意味着“ML工程师安全无事,因为AI无法做所有事。”这意味着平衡正在转移:层次2需要的人更少,留下的人需要更接近层次3的工作才能证明自己的价值。过去重要的问题——“你能运行这个实验吗?”——正在被“你能设计一个值得运行的实验吗?”所取代。这是一种不同的技能。它要求你足够深入地理解你的问题,以至于知道什么才算是有意义的测试。它要求你将模糊的失败模式(“模型在这个子集上表现不佳”)转化为可证伪的假设(“我认为问题在于特征X的分布偏移,这是我验证它的方法”)。
**诚实的立场**
我不是在宣扬末日论。我不认为研究者即将被自动化取代。但我确实认为,决定一个人价值的东西的性质正在改变,而且改变的速度比大多数招聘流程或博士项目所意识到的要快。
我一直回归的技能是“问题表述”:将混乱、定义不清的现实问题转化为足够精确的东西,使得一个精心设计的实验——或一个精心提示的AI系统——能真正取得进展。
这被低估了,因为它难以教授,难以在面试中评估,而且不会在基准测试中整齐地出现。但根据我的经验,它是区分那些产生实际结果的人与那些制造看起来令人印象深刻但实际上没有推动进展的流程的人之间最大的因素。
AI+人类是目前最强的组合,而且优势明显。但人类在这种配对中的工作不再是“执行流程”,而是“对问题足够精确,使得流程值得执行”。这是我正努力改进的地方。我怀疑这将是未来几年最重要的事。
欢迎反驳,特别是那些认为我对层次2/3分界线的判断有误的人。
**AI工具使用声明**
在准备本文的过程中,我使用了包括ChatGPT在内的AI工具来支持语言润色。
相似文章
AI 自动研究:路线图与用户指南
本文调研了AI在整个研究生命周期中的能力与局限,从创意生成到成果发布,识别出可靠辅助与不可靠自主之间的明确界限。它提供了一个分类体系、基准测试套件、工具清单以及人类主导的AI协作研究设计原则。
AutoResearch AI:迈向人工智能驱动的研究自动化以实现科学发现
本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。
AutoResearch AI:迈向AI驱动的科学发现研究自动化
一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。
AI在分析方面越来越强,但问题仍然在于数据。
作者认为,AI分析的质量更多受到数据获取和可靠性的限制,而非推理能力;结构化数据集能显著提升输出效果。
大多数人都以错误的方式使用AI进行研究,如果我们不找到解决方案,可能会毁掉未来几代人
一篇评论文章指出,当前如Perplexity和Gemini等AI研究工具因幻觉而产生缺陷,主张使用AI配合经过精选的、隔离的可信书籍知识库,以确保基于事实的真相,并防止扭曲的世界观伤害未来几代人。