让AI驱动的蛋白质设计工具遍布全球生物学家

MIT News — Artificial Intelligence 产品

摘要

由MIT研究人员Tristan Bepler和Tim Lu创立的OpenProtein.AI,推出了一款无代码平台,旨在普及先进的AI蛋白质设计与工程模型,使广大生物学家都能便捷使用。

<p>人工智能已证明其能够加速药物研发并深化我们对疾病的理解。但要将AI转化为创新疗法,我们需要将最新、最强大的模型交到科学家手中。</p><p>问题在于,大多数科学家并非机器学习专家。如今,OpenProtein.AI公司正通过一个无代码平台帮助科学家紧跟AI前沿,让他们能够访问强大的基础模型以及一系列用于设计蛋白质、预测蛋白质结构和功能以及训练模型的工具。</p><p>该公司由Tristan Bepler(2020年博士毕业)和前MIT副教授Tim Lu(2007年博士毕业)共同创立,目前已为各种规模的制药和生物技术公司的研究人员配备了其工具,包括内部开发用于蛋白质工程的基础模型。OpenProtein.AI还向学术界的科学家免费提供其平台。</p><p>“现在是一个令人非常兴奋的时刻,因为这些模型不仅能提高蛋白质工程的效率——从而缩短治疗和工业应用的开发周期——还能增强我们设计具有特定性状的新蛋白质的能力,”Bepler表示。“我们还在考虑将这些方法应用于非蛋白质模态。宏观来看,我们正在创造一种描述生物系统的语言。”</p><p><strong>以AI推动生物学进步</strong></p><p>Bepler于2014年加入MIT,攻读计算与系统生物学博士学位,师从MIT应用数学Simons教授Bonnie Berger。在那里,他意识到我们对构成生物学构建模块的分子了解甚少。</p><p>“我们对生物分子和蛋白质的表征还不足以创建良好的预测模型,例如预测整个基因组电路会如何运作,或蛋白质相互作用网络的行为如何,”Bepler回忆道。“这激发了我从更细粒度层面理解蛋白质的兴趣。”</p><p>在Google发布强大的蛋白质结构预测模型AlphaFold之前,Bepler开始探索通过分析进化数据来预测构成蛋白质的氨基酸链的方法。这项工作促成了首批用于理解和设计蛋白质的生成式AI模型之一——团队称之为蛋白质语言模型。</p><p>“我对蛋白质的经典框架以及其序列、结构和功能之间的关系非常感兴趣。我们对这些联系了解不足,”Bepler说。“那么我们如何利用这些基础模型跳过‘结构’这一环节,直接从序列推导功能呢?”</p><p>2020年获得博士学位后,Bepler作为博士后进入Lu位于MIT生物工程系的实验室。</p><p>“那时,将AI与生物学结合的理念开始受到关注,”Lu回忆道。“Tristan帮助我们构建了更好的生物设计计算模型。我们还意识到,最尖端工具与生物学家之间存在脱节,生物学家很想使用这些工具,但不知道如何编程。OpenProtein的想法源于扩大这些工具的可及性。”</p><p>Bepler在攻读博士学位期间一直处于AI的最前沿。他知道这项技术可以帮助科学家加速工作。</p><p>“我们最初的想法是构建一个用于闭环机器学习蛋白质工程的通用平台,”Bepler说。“我们希望构建一个用户友好的产品,因为机器学习概念有些晦涩。它们需要实施、GPU、微调以及设计序列库。尤其是当时,这对生物学家来说学习负担太重了。”</p><p>相比之下,OpenProtein的平台具有直观的Web界面,供生物学家上传数据并使用机器学习进行蛋白质工程工作。它提供了一系列开源模型,包括OpenProtein的旗舰蛋白质语言模型PoET。</p><p>PoET(Protein Evolutionary Transformer,蛋白质进化Transformer的缩写)在蛋白质群上进行了训练,以生成相关的蛋白质集。Bepler和他的合作者展示了它能够概括蛋白质上的进化约束,并无需重新训练即可 incorporate 关于蛋白质序列的新信息,从而允许其他研究人员添加实验数据以改进模型。</p><p>“研究人员可以使用自己的数据训练模型并优化蛋白质序列,然后使用我们的其他工具分析这些蛋白质,”Bepler说。“人们在计算机上生成蛋白质序列库,然后通过预测模型进行验证和结构预测。这基本上是一个无代码前端,但我们也为希望通过代码访问的用户提供了API。”</p><p>这些模型帮助研究人员更快地设计蛋白质,然后决定哪些蛋白质值得进一步的实验室测试。研究人员还可以输入感兴趣的蛋白质,模型可以生成具有类似特性的新蛋白质。</p><p>自成立以来,OpenProtein团队继续在其平台上添加工具,供研究人员使用,无论其实验室规模或资源如何。</p><p>“我们非常努力地将平台打造成一个开放式的工具箱,”Bepler说。“它有特定的工作流,但不特定于一种蛋白质功能或一类蛋白质。这些模型的一大优点是它们非常擅长广泛地理解蛋白质。它们学习了所有可能的蛋白质空间。”</p><p><strong>赋能下一代疗法</strong></p><p>大型制药公司勃林格殷格翰(Boehringer Ingelheim)于2025年初开始使用OpenProtein的平台。最近,两家公司宣布扩大合作,将OpenProtein的平台和模型嵌入勃林格殷格翰的工作流程中,用于工程化蛋白质以治疗癌症、自身免疫或炎症性疾病等疾病。</p><p>去年,OpenProtein还发布了其蛋白质语言模型的新版本PoET-2,它在计算资源和实验数据使用量仅为较大模型一小部分的情况下,性能却优于这些大模型。</p><p>“我们真正想要解决的是如何描述蛋白质的问题,”Bepler说。“在我们生成蛋白质时,所使用的有意义的、特定领域的蛋白质约束语言是什么?<strong>&nbsp;</strong>我们如何引入更多的进化约束?我们如何描述蛋白质执行的酶促反应,以便模型能够生成执行该反应的序列?”</p><p>展望未来,<strong>&nbsp;</strong>创始人希望制作出能够考虑蛋白质功能不断变化和相互关联特性的模型。</p><p>“我感兴趣的领域是超越蛋白质结合事件,使用这些模型预测和设计动态特征,即蛋白质必须同时参与两个、三个或四个生物学机制,或在结合后改变其功能,”目前担任公司顾问角色的Lu表示。</p><p>随着AI技术的飞速进步,OpenProtein继续将其使命视为为科学家提供最佳工具,以更快开发新疗法。</p><p>“随着工作变得更加复杂,结合了蛋白质逻辑和动态疗法等方法,现有的实验工具集变得具有局限性,”Lu说。“在AI和生物学周围创建开放生态系统至关重要。AI资源集中度过高导致普通研究人员无法使用的风险是存在的。对于科学领域的进步而言,开放访问非常重要。”</p>
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:54

# 将 AI 驱动的蛋白质设计工具普及到各地的生物学家手中 来源:https://news.mit.edu/2026/bringing-ai-driven-protein-design-tools-everywhere-0417 人工智能已经证明它能够加速药物研发并加深我们对疾病的理解。但要将 AI 转化为新型治疗方法,我们需要将最新、最强大的模型交到科学家手中。 问题在于,大多数科学家并非机器学习专家。如今,公司 OpenProtein.AI 正通过一个无代码平台帮助科学家紧跟 AI 前沿,该平台让他们能够访问强大的基础模型以及一套用于设计蛋白质、预测蛋白质结构和功能以及训练模型的工具。 该公司由 Tristan Bepler(2020 年博士毕业生)和麻省理工学院前副教授 Tim Lu(2007 年博士毕业生)共同创立,目前已为各规模的制药和生物技术公司的研究人员配备了工具,包括内部开发用于蛋白质工程的基础模型。OpenProtein.AI 还向学术界科学家免费提供其平台。 “现在是一个非常令人兴奋的时刻,因为这些模型不仅能使蛋白质工程更加高效——从而缩短治疗和工业用途的开发周期——还能增强我们设计具有特定性状的新蛋白质的能力,”Bepler 说,“我们还在考虑将这些方法应用于非蛋白质模态。宏观来看,我们正在创建一种描述生物系统的语言。” **利用 AI 推进生物学发展** Bepler 于 2014 年加入麻省理工学院,成为计算与系统生物学博士项目的一员,师从麻省理工学院应用数学西蒙斯教授 Bonnie Berger。在那里,他意识到我们对构成生物学基本构建块的分子了解甚少。 “我们对生物分子和蛋白质的特征刻画得还不够充分,无法为整个基因组电路的作用或蛋白质相互作用网络的行为建立良好的预测模型,”Bepler 回忆道,“这激发了我对在更细粒度层面理解蛋白质的兴趣。” Bepler 开始探索通过分析进化数据来预测构成蛋白质的氨基酸链的方法。当时 Google 尚未发布 AlphaFold,这是一种强大的蛋白质结构预测模型。这项工作催生了首批用于理解和设计蛋白质的生成式 AI 模型之一——团队称之为蛋白质语言模型。 “我对蛋白质的经典框架及其序列、结构和功能之间的关系感到非常兴奋。我们对这些联系的了解并不充分,”Bepler 说,“那么我们如何利用这些基础模型跳过‘结构’组件,直接从序列到功能?” 2020 年获得博士学位后,Bepler 作为博士后加入了 Lu 在麻省理工学院生物工程系的实验室。 “那正是将 AI 与生物学融合的想法开始受到重视的时期,”Lu 回忆道,“Tristan 帮助我们建立了更好的生物设计计算模型。我们还意识到,最先进的可用工具与生物学家之间存在脱节,生物学家很想使用这些工具,但不知道如何编程。OpenProtein 的诞生正是源于扩大这些工具访问范围的理念。” Bepler 在攻读博士期间一直处于 AI 的前沿。他知道这项技术可以帮助科学家加速工作。 “我们最初的想法是构建一个通用的平台,用于在环路中进行机器学习驱动的蛋白质工程,”Bepler 说,“我们希望构建一个用户友好的东西,因为机器学习概念有些晦涩难懂。它们需要实现、GPU、微调、设计序列库。尤其是当时,这对生物学家来说学习负担很重。” 相比之下,OpenProtein 的平台具有直观的 Web 界面,供生物学家上传数据并使用机器学习进行蛋白质工程工作。它包含一系列开源模型,包括 OpenProtein 的旗舰蛋白质语言模型 PoET。 PoET(Protein Evolutionary Transformer,蛋白质进化Transformer 的缩写)是在蛋白质组上训练的,用于生成相关的蛋白质集合。Bepler 和他的合作者展示了它可以概括蛋白质上的进化约束,并在无需重新训练的情况下纳入有关蛋白质序列的新信息,允许其他研究人员添加实验数据以改进模型。 “研究人员可以使用自己的数据来训练模型并优化蛋白质序列,然后可以使用我们的其他工具来分析这些蛋白质,”Bepler 说,“人们正在计算机上生成蛋白质序列库,然后将其通过预测模型以获得验证和结构预测器。这基本上是一个无代码的前端,但我们也为希望通过代码访问它的人提供了 API。” 这些模型帮助研究人员更快地设计蛋白质,然后决定哪些蛋白质有希望进行进一步的实验室测试。研究人员还可以输入感兴趣的蛋白质,模型可以生成具有相似特性的新蛋白质。 自成立以來,OpenProtein 团队继续为其平台添加工具,服务于不同实验室规模和资源的研究人员。 “我们非常努力地将平台打造成一个开放式工具箱,”Bepler 说,“它有特定的工作流程,但并不特定于某一种蛋白质功能或蛋白质类别。这些模型的一个伟大之处在于它们非常擅长广泛地理解蛋白质。它们学习所有可能蛋白质的整个空间。” **赋能下一代疗法** 大型制药公司勃林格殷格翰(Boehringer Ingelheim)于 2025 年初开始使用 OpenProtein 的平台。最近,两家公司宣布扩大合作,OpenProtein 的平台和模型将嵌入到勃林格殷格翰的工作中,随着其设计用于治疗癌症、自身免疫或炎症疾病的蛋白质工程推进。 去年,OpenProtein 还发布了其蛋白质语言模型的新版本 PoET-2,该模型在计算资源和实验数据使用量仅为较小比例的情况下,性能优于许多更大的模型。 “我们真正想要解决的是如何描述蛋白质的问题,”Bepler 说,“在生成蛋白质时,我们使用的有意义的、特定领域的蛋白质约束语言是什么?我们如何引入更多的进化约束?我们如何描述蛋白质执行的酶促反应,以便模型能够生成执行该反应的序列?” 展望未来,创始人希望构建考虑到蛋白质功能不断变化和相互关联性质的模型。 “我感兴趣的领域是超越蛋白质结合事件,使用这些模型预测和设计动态特征,其中蛋白质必须同时参与两、三或四种生物机制,或在结合后改变其功能,”Lu 说,他目前担任该公司的顾问。 随着 AI 进展的不断加速,OpenProtein 继续将其使命视为为科学家提供最佳工具以更快开发新疗法。 “随着工作变得更加复杂,方法融合了蛋白质逻辑和动态疗法等要素,现有的实验工具集变得具有局限性,”Lu 说,“围绕 AI 和生物学创建开放生态系统非常重要。存在 AI 资源变得过于集中以至于普通研究人员无法使用的风险。对于科学领域的进步来说,开放访问至关重要。”

相似文章

加速生命科学研究

OpenAI Blog

OpenAI 与 Retro Biosciences 合作开发了 GPT-4b micro,这是 GPT-4o 的专门版本,用于蛋白质工程,实现了干细胞重编程标志物表达提高 50 倍,并增强了 DNA 损伤修复能力。这些发现已在多个供体和细胞类型中得到验证,证明了人工智能加速生命科学研究的潜力。

MIT工程师依据运动而非仅依据形状设计蛋白质

MIT News — Artificial Intelligence

MIT研究人员开发了名为VibeGen的AI模型,该模型基于蛋白质的动态运动和力学特性进行设计,而非仅依赖静态结构。这种方法能够创造出具有特定振动和弯曲行为的蛋白质,推动了生成式AI在科学领域的发展。

整合生物工具包,探索ALS新疗法

Google DeepMind Blog

DeepMind的Co-Scientist人工智能工具融合了两位来自不同生物领域研究者的专业知识,通过生成可验证的假设并识别基于RNA的潜在治疗机制,加速ALS研究。