AlphaGenome:用于更好地理解基因组的人工智能
摘要
DeepMind 推出 AlphaGenome,这是一个能够预测 DNA 序列变异如何影响基因调控和生物过程的 AI 模型,可应用于多种细胞类型和组织。该模型可处理多达 100 万个碱基对,通过 API 向非商业研究提供,完整论文已在《自然》杂志上发表。
推出一个新的、统一的 DNA 序列模型,该模型推进了调控变异效应预测,有望为基因组功能揭示新的洞见 — 现已通过 API 提供。
查看缓存全文
缓存时间: 2026/04/20 08:35
# AlphaGenome:用于更好理解基因组的AI
来源:https://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/
介绍一个新的统一DNA序列模型,它推进了调控变异效应预测,并有望揭示基因组功能的新见解——现已通过API提供。
**2026年1月更新:** 本研究已发表在《Nature》杂志上。您可以阅读完整论文(https://www.nature.com/articles/s41586-025-10014-0)并访问该模型(https://github.com/google-deepmind/alphagenome_research)。
基因组是我们的细胞指令手册。它是完整的DNA集合,指导活生物体的几乎每一个方面,从外观和功能到生长和繁殖。基因组DNA序列中的微小变异可以改变生物体对环境的响应或其疾病易感性。但解密基因组指令在分子水平上是如何读取的——以及当发生微小DNA变异时会发生什么——仍然是生物学最大的谜团之一。
今天,我们介绍AlphaGenome(https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=),一个新的人工智能(AI)工具,它可以更全面、更准确地预测人类DNA序列中的单个变异或突变如何影响调控基因的广泛生物过程。这得益于技术进步,使该模型能够处理长DNA序列并输出高分辨率预测。
为了推进科学研究,我们通过AlphaGenome API(https://github.com/google-deepmind/alphagenome)以预览版的形式向非商业研究提供AlphaGenome,并计划在未来发布该模型。
我们相信AlphaGenome可以成为科学界的宝贵资源,帮助科学家更好地理解基因组功能、疾病生物学,最终推动新的生物发现和新治疗方法的开发。
## AlphaGenome如何工作
我们的AlphaGenome模型将长DNA序列作为输入——最多100万个字母,也称为碱基对——并预测表征其调控活性的数千个分子属性。它还可以通过比较突变序列与未突变序列的预测来评分遗传变异或突变的效应。
预测的属性包括基因在不同细胞类型和组织中的起始和结束位置、它们如何被剪接、产生的RNA数量,以及哪些DNA碱基是可获取的、彼此接近的或被某些蛋白质结合的。训练数据来自包括ENCODE(http://encodeproject.org/)、GTEx(https://www.gtexportal.org/)、4D Nucleome(https://4dnucleome.org/)和FANTOM5(https://fantom.gsc.riken.jp/5/)在内的大型公共联盟,这些联盟实验测量了跨越数百个人类和小鼠细胞类型和组织的基因调控的重要方式的属性。
动画显示AlphaGenome将100万个DNA字母作为输入,并在不同组织和细胞类型中预测不同的分子属性。
AlphaGenome架构使用卷积层来初步检测基因组序列中的短模式,使用Transformer在序列中所有位置间传达信息,最后一系列层将检测到的模式转化为对不同方式的预测。在训练期间,这个计算分布在多个互联的张量处理单元(TPU)中以处理单个序列。
该模型建立在我们之前的基因组学模型Enformer(https://deepmind.google/discover/blog/predicting-gene-expression-with-ai/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)的基础上,并与AlphaMissense(https://deepmind.google/discover/blog/a-catalogue-of-genetic-mutations-to-help-pinpoint-the-cause-of-diseases/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)形成互补,后者专门用于对蛋白质编码区域内的变异效应进行分类。这些区域覆盖基因组的2%。剩余的98%称为非编码区域,对于协调基因活动至关重要,并包含许多与疾病相关的变异。AlphaGenome为解释这些广泛的序列及其中的变异提供了新的视角。
## AlphaGenome的独特功能
与现有DNA序列模型相比,AlphaGenome提供了几个独特的功能:
### 长序列上下文高分辨率
我们的模型分析多达100万个DNA字母,并以单个字母的分辨率进行预测。长序列上下文对于覆盖远距离调控基因的区域很重要,碱基分辨率对于捕获细粒度的生物细节很重要。
以前的模型必须在序列长度和分辨率之间权衡,这限制了它们可以联合建模和准确预测的方式范围。我们的技术进步解决了这一限制,而不会显著增加训练资源——训练单个AlphaGenome模型(不使用蒸馏)耗时四小时,所需计算预算仅为我们原始Enformer模型训练所需预算的一半。
### 全面的多模态预测
通过解锁长输入序列的高分辨率预测,AlphaGenome可以预测最多样化的方式。这样做,AlphaGenome为科学家提供了关于基因调控复杂步骤的更全面信息。
### 高效的变异评分
除了预测多种分子属性外,AlphaGenome还可以在一秒内高效评分遗传变异对所有这些属性的影响。它通过对比突变序列与未突变序列的预测来实现这一点,并使用对不同方式的不同方法高效地总结这一对比。
### 新颖的剪接位点建模
许多罕见遗传病,如脊肌萎缩症和某些形式的囊性纤维化,可能由RNA剪接中的错误引起——这是一个过程,其中RNA分子的某些部分被移除或"剪接出去",剩余的末端重新连接。AlphaGenome首次可以直接从序列显式建模这些连接点的位置和表达水平,为遗传变异对RNA剪接后果提供了更深入的见解。
## 在基准测试中达到最先进的性能
AlphaGenome在广泛的基因组预测基准上达到了最先进的性能,例如预测DNA分子的哪些部分将处于接近的位置、遗传变异是否会增加或降低基因表达,或者它是否会改变基因的剪接模式。
柱状图显示AlphaGenome在选定的DNA序列和变异效应任务上相对于每个类别中当前最佳方法结果的相对改进。
当为单个DNA序列生成预测时,AlphaGenome在22项评估中的24项上超越了最佳外部模型。在预测变异的调控效应时,它在26项评估中的24项上与顶级外部模型相匹配或超越。
这一比较包括专门针对单个任务的模型。AlphaGenome是唯一能够联合预测所有评估方式的模型,凸显了其通用性。在我们的预印本中阅读更多(https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)。
## 统一模型的优势
AlphaGenome的通用性允许科学家通过单一API调用同时探索变异对多个方式的影响。这意味着科学家可以更快地生成和测试假设,而无需使用多个模型来研究不同的方式。
此外,AlphaGenome强大的性能表明它已经学到了相对通用的DNA序列表示,在基因调控的背景下。这为更广泛的社区建立基础提供了强有力的基础。一旦模型完全发布,科学家将能够在自己的数据集上调整和微调它,以更好地应对他们独特的研究问题。
最后,这种方法为未来提供了灵活和可扩展的架构。通过扩展训练数据,AlphaGenome的功能可以扩展以提高性能、覆盖更多物种,或包含额外的方式,使模型更加全面。
> 这对该领域来说是一个里程碑。首次,我们有了一个单一模型,它在长距离上下文、碱基级精度和跨越整个基因组任务谱的最先进性能方面实现了统一。
Caleb Lareau博士
纪念斯隆凯特琳癌症中心
## 强大的研究工具
AlphaGenome的预测功能可以帮助多个研究方向:
1. **疾病理解:** 通过更准确地预测遗传破坏,AlphaGenome可以帮助研究人员更精确地确定疾病的潜在原因,并更好地解释与某些性状相关的变异的功能影响,可能发现新的治疗靶点。我们认为该模型特别适合研究具有潜在大效应的罕见变异,例如引起罕见孟德尔遗传病的变异。
2. **合成生物学:** 其预测可用于指导具有特定调控功能的合成DNA的设计——例如,仅在神经细胞中激活基因,而不在肌肉细胞中激活。
3. **基础研究:** 它可以通过协助映射基因组的关键功能元素并定义其角色、识别调控特定细胞类型功能的最必要DNA指令,来加速我们对基因组的理解。
例如,我们使用AlphaGenome调查了与癌症相关的突变的潜在机制。在对T细胞急性淋巴细胞白血病(T-ALL)患者的现有研究(https://www.science.org/doi/10.1126/science.1259037)中,研究人员观察到基因组特定位置的突变。使用AlphaGenome,我们预测这些突变会通过引入MYB DNA结合基序来激活附近的基因TAL1(https://alphafold.ebi.ac.uk/entry/P17542?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=),这复制了已知的疾病机制,突显了AlphaGenome将特定非编码变异与疾病基因联系起来的能力。
> AlphaGenome将是该领域的强大工具。确定不同非编码变异的相关性可能非常具有挑战性,特别是在大规模做这一点的情况下。该工具将提供关键的一部分,使我们能够建立更好的联系,以理解癌症等疾病。
Marc Mansour教授
伦敦大学学院
## 当前限制
AlphaGenome标志着重大进步,但重要的是认识到其当前限制。
与其他序列模型一样,准确捕捉非常遥远的调控元素(如相隔超过100,000个DNA字母的元素)的影响仍然是一个挑战。未来工作的另一个优先事项是进一步增加模型捕捉细胞和组织特异性模式的能力。
我们没有为个人基因组预测设计或验证AlphaGenome,这是AI模型的一个已知挑战。相反,我们更多地关注在单个遗传变异上表征性能。虽然AlphaGenome可以预测分子结果,但它不能提供遗传变异如何导致复杂性状或疾病的完整图景。这些通常涉及更广泛的生物过程,如发育和环境因素,这超出了我们模型的直接范围。
我们正在继续改进我们的模型,并收集反馈以帮助我们解决这些差距。
## 使社区能够解锁AlphaGenome的潜力
AlphaGenome现已通过AlphaGenome API(https://github.com/google-deepmind/alphagenome)供非商业用途使用。请注意,我们模型的预测仅用于研究用途,且尚未设计或验证用于直接临床目的。
全球研究人员受邀通过社区论坛(https://www.alphagenomecommunity.com/)分享AlphaGenome的潜在用例,以及提出问题或分享反馈。
我们希望AlphaGenome将成为更好理解基因组的重要工具,我们致力于与学术界、工业界和政府组织的外部专家合作,确保AlphaGenome造福尽可能多的人。
与更广泛科学界的集体努力相结合,我们希望它将深化我们对编码在DNA序列中的复杂细胞过程和变异影响的理解,并推动基因组学和医疗保健领域令人兴奋的新发现。
了解更多关于AlphaGenome
**致谢**
我们要感谢Juanita Bawagan、Arielle Bier、Stephanie Booth、Irina Andronic、Armin Senoner、Dhavanthi Hariharan、Rob Ashley、Agata Laydon和Kathryn Tunyasuvunakool对文本和图表的帮助。
这项工作是AlphaGenome共同作者的贡献所得:Žiga Avsec、Natasha Latysheva、Jun Cheng、Guido Novati、Kyle R. Taylor、Tom Ward、Clare Bycroft、Lauren Nicolaisen、Eirini Arvaniti、Joshua Pan、Raina Thomas、Vincent Dutordoir、Matteo Perino、Soham De、Alexander Karollus、Adam Gayoso、Toby Sargeant、Anne Mottram、Lai Hong Wong、Pavol Drotár、Adam Kosiorek、Andrew Senior、Richard Tanburn、Taylor Applebaum、Souradeep Basu、Demis Hassabis和Pushmeet Kohli。
我们还要感谢Dhavanthi Hariharan、Charlie Taylor、Ottavia Bertolli、Yannis Assael、Alex Botev、Anna Trostanetski、Lucas Tenório、Victoria Johnston、Richard Green、Kathryn Tunyasuvunakool、Molly Beck、Uchechi Okereke、Rachael Tremlett、Sarah Chakera、Ibrahim I. Taskiran、Andreea-Alexandra Muşat、Raiyan Khan、Ren Yi和更广泛的Google DeepMind团队的支持、帮助和反馈。
相似文章
AlphaEvolve:由 Gemini 驱动的编码代理,其影响力跨越多个领域
DeepMind 强调了 AlphaEvolve(一款由 Gemini 驱动的编码代理)影响力的扩展,展示了其在基因组学、电网优化、地球科学、量子物理学和数学等领域优化算法的能力。
@GoogleDeepMind:算法几乎存在于生活的方方面面,从自然世界的物理规律到规划航运路线……
Google DeepMind 强调其基于 Gemini 的编码智能体 AlphaEvolve 的广泛影响,展示了在基因组学、电网优化、地球科学和量子物理研究方面的重大进展。
@GoogleDeepMind:计算发现 一个基于AlphaEvolve和实证研究辅助的自主代理原型,用于开发和评分…
Google DeepMind推出一个计算发现原型,它利用AlphaEvolve和实证研究辅助并行开发和评分数千种代码变体,从而能够更快地测试流行病学建模方法。
AlphaEvolve:一个由Gemini驱动的编码智能体,用于设计先进算法
DeepMind发布AlphaEvolve,这是一个由Gemini驱动的AI智能体,它将大型语言模型与自动评估器相结合,能够发现并优化用于数学和实际计算问题的算法,提高数据中心、芯片设计和AI训练的效率。
加速生命科学研究
OpenAI 与 Retro Biosciences 合作开发了 GPT-4b micro,这是 GPT-4o 的专门版本,用于蛋白质工程,实现了干细胞重编程标志物表达提高 50 倍,并增强了 DNA 损伤修复能力。这些发现已在多个供体和细胞类型中得到验证,证明了人工智能加速生命科学研究的潜力。