The biggest AI breakthrough in medicine & drug discovery

Reddit r/singularity 模型

摘要

MAML is a novel multi-modal AI model that unifies understanding of chemistry, genetics, and proteins, outperforming specialized models on 11 drug discovery benchmarks, promising to accelerate pharmaceutical research and improve success rates.

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/14 18:34

TL;DR: 一种名为 MAML 的新型 AI 模型通过统一理解化学、遗传学和蛋白质数据,在药物发现和生物医学预测中击败了多个专业模型,有望大幅加速药物研发并提高成功率。 ## 药物发现的困境:90% 的失败率 想象一下,你花了 10 年和 10 亿美元开发一种药物,却有 90% 的概率失败。这就是当今新药研发的现实——约 90% 的候选药物最终无法通过临床试验获得批准。尽管我们已经拥有智能手机、人类基因组图谱、能预测蛋白质结构的 AI,但在制造真正有效的新药时,大多数尝试仍然以失败告终。 问题的根源在于生物学的基本路径:DNA 包含基因,基因编码蛋白质,蛋白质是体内完成实际工作的微型机器。当 DNA 发生突变或基因表达异常时,蛋白质功能出错,可能导致癌症等疾病。例如,一个突变损坏了控制细胞分裂的基因,改变基因表达或蛋白质功能,最终指示细胞不受控生长并形成肿瘤。 目前的药物设计方法是:先找出疾病通路中的“坏蛋”(比如某个过度活跃的蛋白质),然后设计一种药物(小分子或抗体)来与之结合,像钥匙插入锁一样阻断其功能。但这把钥匙也可能打开身体里的其他锁,产生副作用。药物设计本质上是在寻找一个足够强大、足够精确、足够安全的分子工具——这极其困难。 ## 现有工具的局限性:各自为政的专家 今天我们拥有极其强大的生物工具,但大多数只理解拼图的一个切片: - 有的 AI 预测蛋白质结构(如 AlphaFold) - 有的 AI 擅长读取和生成 DNA(如 EVO 2) - 还有工具分析化学化合物、处理临床试验数据 但疾病不是发生在独立文件夹里的——它贯穿整个系统:从 DNA 到基因活性,再到蛋白质、细胞、全身。所有工具由不同团队用不同数据集构建,针对不同任务优化,彼此不沟通。就像侦破一个犯罪现场:一个侦探只有指纹,另一个只有监控录像,再一个只有尸检报告,每一条线索都重要却无法串联成一个故事。 ## MAML 的突破:统一多模态的 AI 一篇最新论文介绍了一种名为 **MAML** 的 AI 模型,它尝试解决这个碎片化问题。MAML 同时在化学、遗传学和蛋白质上训练,理解它们之间的关系。它的预训练规模惊人:使用了约 **20 亿个样本**,爬取了几乎所有主要生物数据库——包括数十亿抗体序列的 Observed Antibody Space(OAS)、几乎所有已知蛋白质的 UniProt、数百万小分子结构的 ZINC 和 PubChem、以及大量基因表达数据的 CellXgene。 ### 统一格式:将一切转为字符序列 不同数据类型格式迥异:小分子(如阿司匹林)看起来完全不像基因,基因也不像抗体。研究人员巧妙地将所有内容强制转换为统一的字符序列,但每个领域有自己的语法: - **小分子**:使用 SMILES 字符串,将 3D 化学结构压缩成一行文本(如泰诺的 SMILES 表示),每个字母代表一个原子,符号代表化学键。 - **基因**:取细胞中每个基因按活跃程度(表达量)排序,最高表达的排在最前,最沉默的排在最后——模型将细胞读取为一个优先级列表。 - **蛋白质/抗体**:直接读取氨基酸链(蛋白质的构建块)。 ### 模块化分词器:多语言翻译官 如果把所有原始数据直接扔进神经网络,会非常困惑。MAML 使用了一种称为 **模块化分词器**(modular tokenizer)的技术:它有一个总的分词器,下面包含专门的子字典——化学字典、遗传学字典、蛋白质字典。遇到小分子就用化学字典转成 token 和嵌入,遇到蛋白质就用蛋白质字典转成嵌入,基因同理。神奇的是:一旦所有内容被翻译成嵌入,它们会被混合到一个共享的多维空间中,模型在这个统一空间里同时学习化学、蛋白质和基因表达,从而理解不同事物之间的关系。 ## 性能表现:全面击败专业模型 MAML 在 **11 个横跨整个药物发现流程的严格基准测试** 上取得了最前沿的性能,在所有任务上直接击败了之前世界上最好的模型。 ### 血脑屏障穿透性预测(BBBP) 血脑屏障是药理学中的重要障碍。治疗阿尔茨海默病或帕金森病的药物必须能穿透它,而强效的肝脏化疗药物则必须避开它。在此基准上,之前的冠军是 **MolFormer**——一个高度专业化、仅在超过十亿个小分子序列上训练的模型。MAML 作为一个通才,竟然击败了这位“专业游泳运动员”。这意味着了解基因和蛋白质并不是干扰,而是一种优势:小分子存在的目的是与蛋白质相互作用并改变基因表达,MAML 通过学习这些不同模态之间的关系,发展出对分子整体生物学更深的理解。 ### 临床毒性预测(ClinTox) 在预测 FDA 批准和临床毒性的 ClinTox 基准上,MAML 以巨大的百分点优势击败了 MolFormer。这表明它能更准确地预测药物是否安全。 ### 细胞类型标记(Zen 68K) 该数据集包含来自血液中大量不同免疫细胞类型的数千个基因活动数据。AI 需要根据细胞的基因活动正确标记类型(如 CD4+ T 细胞、NK 细胞)。这是分析免疫系统对疾病或治疗反应的基础任务。MAML 在此任务上比最前沿的模型实现了 **7.5% 的提升**,是一个巨大的飞跃。 ### 癌症药物反应 论文中最令人印象深刻的部分是癌症药物反应预测。MAML 能够预测不同患者或细胞系对特定抗癌药物的反应,这直接关系到个性化医疗和精准治疗。虽然没有给出具体数字,但明确指出 MAML 在所有相关基准上都达到了最前沿。 ## 赞助商介绍 *如果你在线制作视频或内容,可以试试本视频的赞助商 Runway。他们刚刚发布了 Runway Agent,能自主地将你的想法变成可发布的视频——包含多镜头、配音、音乐、场景转换和叙事结构。在视频生成前,你可以先看到完整计划并微调,然后再渲染。使用代码 agent50 可享受首三个月 50% 的折扣。* ## 总结与展望 MAML 证明了一个通才模型在生物医学领域也能击败专家模型。通过同时理解化学、遗传学和蛋白质,它发展出了比任何单领域模型都更全面的生物学理解。这意味着药物发现可能变得更快、更便宜、更精准,并推动个性化医疗等领域的发展。这篇论文是生物 AI 领域的一个重要里程碑,展现了多模态深度学习在生命科学中的巨大潜力。 Source: https://youtu.be/s3rNDndvav0

相似文章

加速发现肝脏疾病机制

Google DeepMind Blog

DeepMind的Co-Scientist人工智能系统帮助爱丁堡大学的研究人员生成了一种新颖且经过实验验证的假说,将NLRP3炎症小体与药物resmetirom在MASH肝病中的作用机制联系起来,可能有助于实现靶向联合治疗。

整合生物工具包,探索ALS新疗法

Google DeepMind Blog

DeepMind的Co-Scientist人工智能工具融合了两位来自不同生物领域研究者的专业知识,通过生成可验证的假设并识别基于RNA的潜在治疗机制,加速ALS研究。

构建理解化学原理的AI模型

MIT News — Artificial Intelligence

MIT副教授Connor Coley讨论他开发AI模型以理解化学原理并通过预测反应路径和分析海量潜在化合物来加速药物发现的工作。