蛋白质的散文——通过 Brian Hie 的作品学习品味与视野

ML at Berkeley 新闻

摘要

本文介绍了研究员 Brian Hie,重点阐述了他文学与计算机科学的独特背景如何启发了 ESM 的开发,这是一种用于蛋白质序列的类似 BERT 的模型。

<p>在研究领域,目睹学者们目标明确的步伐总有一种令人着迷的地方。他们的论文并非偶然出现在 ArXiv 上,而是带着一个故事。在过去几十年里,我们很幸运地看到一些人在其作品集中注入了连贯的思想。在现代机器学习中,Lucas Beyer 及其团队统一了不同模态所使用的建模语言。Transformer 不仅仅用于机器翻译:它们在视觉领域也占有一席之地。这让科学家们开始使用同一种语言交流。Frances Arnold 在定向进化方面的工作不仅为化学家提供了新颖的催化剂,还告诉我们,无需等待数百万年让自然孕育出我们梦想中的蛋白质,我们可以在几周或几个月内亲手实现这一目标。</p><p>Richard Hamming 通过一个关于随机游走的寓言,概括了研究视野的教训。随意的生活选择只能让一个人前进 <code>sqrt(n)</code> 的距离(如果生活是一维随机游走的话)。相比之下,在许多微小的生活决策中做出深思熟虑的选择,可以让一个人前进 <code>O(n)</code> 的距离。用 Hamming 的话说,<em>"走得更远的人和走不远的人之间的主要区别在于,一些人拥有愿景,而另一些人则没有。"</em></p><div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://mlberkeley.substack.com/subscribe?&quot;,&quot;text&quot;:&quot;Subscribe&quot;,&quot;language&quot;:&quot;en&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">感谢阅读 ML@B 博客!免费订阅以接收新文章并支持我的工作。</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="输入您的邮箱..." tabindex="-1"><input type="submit" class="button primary" value="Subscribe"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div><p>为了对抗 Hamming 所说的 <code>sqrt(n)</code> 式生活方式,我们将探讨品味如何激发视野。以 Brian Hie 为透镜来研究这个问题,我们会看到 Brian 在诗歌和生物学方面的独特背景是如何促成了一个无人能复制的故事的。</p><h2>第一幕:散文</h2><p>在 Brian 就读斯坦福大学本科期间,他选择了一个不寻常的组合专业。他同时修读英语文学和计算机科学。正如我们稍后将会看到的,他在理解语言机制上花费的时间,为他解决生物问题提供了一种独特的风格。</p><p>早在谷歌内部,Devlin 等人于 2018 年提出了一种通用的无监督预训练方案。他们的工作 BERT 构建了一个框架,通过在输入序列中遮盖文本块并预测缺失的文本作为输出,从而在文本上预训练表示模型。</p><p>虽然这是一种自然语言的范式,但 Brian 和 Facebook 的蛋白质团队认为 BERT 不仅仅是一种支持文本分类或检索的方法。他们接受了这一框架的通用性,并注意到了英语散文与生物语言之间的镜像关系。</p><p>蛋白质序列中的标准 20 种氨基酸形成字符串的方式与英语相同。这一洞察催生了一种名为 ESM(Rives 等人,2021)的类似 BERT 的预训练方法。使用这种方案训练的模型,在没有直接指导的情况下重新发现了氨基酸的特性以及蛋白质结构。</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!vLVS!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!vLVS!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 424w, https://substackcdn.com/image/fetch/$s_!vLVS!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 848w, https://substackcdn.com/image/fetch/$s_!vLVS!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 1272w, https://substackcdn.com/image/fetch/$s_!vLVS!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!vLVS!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png" width="1456" height="686" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:686,&quot;width&quot;:1456,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:null,&quot;alt&quot;:&quot;aas&quot;,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="aas" title="aas" srcset="https://substackcdn.com/image/fetch/$s_!vLVS!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 424w, https://substackcdn.com/image/fetch/$s_!vLVS!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 848w, https://substackcdn.com/image/fetch/$s_!vLVS!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 1272w, https://substackcdn.com/image/fetch/$s_!vLVS!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F58357c77-60fb-48e5-81ce-b0b9236c967b_2033x958.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="
查看原文

相似文章

ProtSent:蛋白质句子转换器

arXiv cs.LG

本文介绍了 ProtSent,这是一个用于蛋白质语言模型的对比微调框架,能够提升嵌入质量,从而优化远程同源性检测和结构检索等下游任务。

通过可微图划分对蛋白质语言模型表示的结构解释

arXiv cs.LG

本文提出了 SoftBlobGIN 框架,通过将蛋白质语言模型的表示投影到接触图上进行结构感知的消息传递,增强了其可解释性。该框架在酶分类和结合位点检测任务上展现出性能提升,同时提供了可审计的结构化解释。

通过建模幸存者偏差提升蛋白质功能预测

arXiv cs.LG

本文介绍了 Evo-PU,一种正无标签学习框架,通过利用进化突变过程对蛋白质序列数据中的幸存者偏差进行建模。作者证明,在预测流感、RSV 和 SARS-CoV-2 的蛋白质功能方面,Evo-PU 优于标准的正无标签方法和蛋白质语言模型。