GLACIER: 一种用于分子性质预测的多模态学生-教师基础模型
摘要
本文介绍了GLACIER,一种多模态学生-教师基础模型,它整合了分子图、SMILES字符串和物理化学描述符,以高效预测分子性质。它利用Finsler几何感知融合以及来自更大教师模型(MiniMol、MolFormer)的知识蒸馏,以轻量级架构实现高性能。
arXiv:2606.11382v1 公告类型:新
摘要:深度学习模型有助于在数十亿候选化合物中发现具有定制性质的分子。然而,开发和部署最先进模型的计算负担不断增加,限制了其可扩展性。大多数大规模模型本质上是单模态的,忽视了利用互补分子数据模态的潜力。为了解决这些不足,本文引入了用于化学推理和探索的图语言对齐表示(GLACIER)模型,这是一个学生-教师框架,整合了分子图、SMILES字符串和物理化学描述符,以学习丰富的分子嵌入。我们的框架包括三个阶段:(1)我们在10万个类药分子上预训练三个学生编码器:用于分子图的消息传递神经网络、用于SMILES字符串的基于Transformer的编码器,以及用于物理化学描述符的多层感知器;(2)我们使用一种新颖的Finsler几何感知模块融合这些学生模态;(3)通过对比学习,从大型教师模型(包括MiniMol和MolFormer)中蒸馏互补知识到一个单一的轻量级模型。我们证明GLACIER是一个稳健的框架,在复杂的分子性质预测任务中提供高预测性能和计算效率。我们的代码公开在https://github.com/eemokey/glacier。
查看缓存全文
缓存时间: 2026/06/11 13:47
# GLACIER:用于分子性质预测的多模态师生基础模型 来源:https://arxiv.org/html/2606.11382 Emily Nguyen0000\-0003\-4917\-7336 (https://orcid.org/0000-0003-4917-7336)计算机科学系,南加州大学,洛杉矶,加利福尼亚州,美国emilyn98@usc\.edu (https://arxiv.org/html/2606.11382v1/mailto:[email protected])Yongchan Hong0009\-0009\-8866\-1690 (https://orcid.org/0009-0009-8866-1690)定量与计算生物学系,南加州大学,洛杉矶,加利福尼亚州,美国hongyong@usc\.edu (https://arxiv.org/html/2606.11382v1/mailto:[email protected]),Harsh Toshniwal0009\-0008\-2244\-9497 (https://orcid.org/0009-0008-2244-9497)计算机科学系,南加州大学,洛杉矶,加利福尼亚州,美国htoshniw@usc\.edu (https://arxiv.org/html/2606.11382v1/mailto:[email protected]),Yan Liu0000\-0002\-7055\-9518 (https://orcid.org/0000-0002-7055-9518)亚马逊,计算机科学系,南加州大学,洛杉矶,加利福尼亚州,美国yanliu@cs\.usc\.edu (https://arxiv.org/html/2606.11382v1/mailto:[email protected])以及Andreas Luttens0000\-0003\-2915\-7901 (https://orcid.org/0000-0003-2915-7901)医学生物化学与生物物理系,生命科学实验室,卡罗林斯卡学院,斯德哥尔摩,瑞典andreas\.luttens@ki\.se (https://arxiv.org/html/2606.11382v1/mailto:[email protected]) ###### 摘要。 深度学习模型有助于在数十亿候选化合物中筛选具有特定性质的分子。然而,开发和部署最先进模型的计算负担不断增加,限制了其可扩展性。大多数大规模模型本质上是单模态的,忽视了利用互补分子数据模态的潜力。为了解决这些不足,本文提出了用于化学推理和探索的图-语言对齐表示模型(GLACIER),这是一个师生框架,它整合了分子图、SMILES字符串和物理化学描述符,以学习丰富的分子嵌入。我们的框架包含三个阶段:(1) 我们预训练三个学生编码器在100,000个类药分子上:一个用于分子图的消息传递神经网络、一个用于SMILES字符串的基于变换器的编码器,以及一个用于物理化学描述符的多层感知机;(2) 我们使用一种新颖的基于芬斯勒几何的融合模块来融合这些学生模态;(3) 通过对比学习,从大型教师模型(包括MiniMol和MolFormer)中将互补知识蒸馏到一个轻量级模型中。我们证明了GLACIER是一个稳健的框架,在复杂的分子性质预测任务中能够提供高预测性能和计算效率。我们的代码公开在https://github.com/eemokey/glacier。 分子性质预测、多模态学习、基础模型、对比学习、知识蒸馏、芬斯勒几何、分子表示学习、药物发现 ††ccs:计算方法 机器学习††ccs:应用计算 化学参见图注图1。模型性能(AUROC)与模型参数量(左)及每个分子模型推理时间(右)的关系。散点图显示各模型效率与AUROC的关系。参见图注图2。GLACIER框架概览:步骤1中,GLACIER被实例化为一个多模态基础模型,使用从Enamine REAL数据库中采样的100,000个分子进行预训练。该架构通过三种模态——分子图、SMILES字符串和物理化学描述符——处理每个分子,以捕获全面的分子表示。在步骤2中,从步骤1获得的不同模态表示使用一种新颖的基于芬斯勒几何的融合机制进行整合,该机制动态融合图、文本和表格嵌入。在步骤3中,通过对比目标进行师生知识蒸馏来预训练模型,该目标将融合的学生嵌入与固定的大规模教师模型嵌入对齐。最后,该模型可应用于下游任务。GLACIER模型架构示意图。使用互补分子表示的三个学生编码器被几何融合。由此产生的基础模型可用于训练针对药物发现相关的下游性质预测任务。## 1. 引言 安全有效的药物必须展现出一组特定的分子性质,包括对药物靶点的效力、选择性、良好的药代动力学和药效学特性以及低毒性(17 (https://arxiv.org/html/2606.11382#bib.bib1))。识别满足这些要求的分子是一项漫长且成本高昂的任务,通常涉及设计、合成和实验评估的多个循环(51 (https://arxiv.org/html/2606.11382#bib.bib2))。为了加速药物发现,深度学习模型在化学数据集上进行训练,以学习分子结构与目标性质(包括生物活性以及吸收、分布、代谢、排泄和毒性(ADMET)终点)之间的关系(53 (https://arxiv.org/html/2606.11382#bib.bib17),47 (https://arxiv.org/html/2606.11382#bib.bib3),46 (https://arxiv.org/html/2606.11382#bib.bib4))。这些模型使得能够更有效地优先筛选有前景的候选化合物进行后续实验评估(45 (https://arxiv.org/html/2606.11382#bib.bib16),26 (https://arxiv.org/html/2606.11382#bib.bib18),33 (https://arxiv.org/html/2606.11382#bib.bib51))。 实现这一目标需要信息丰富的分子表示以及能够将这些表示映射到相应性质的算法。一个有前景的方法是使用化学基础模型,这些模型首先在大数据集上预训练以学习通用的化学表示,然后使用最少的额外数据针对特定下游任务进行微调(12 (https://arxiv.org/html/2606.11382#bib.bib32),7 (https://arxiv.org/html/2606.11382#bib.bib27),43 (https://arxiv.org/html/2606.11382#bib.bib30))。为了评估这些模型的预测性能,具有实验测量性质的标准化基准数据集至关重要。几个公共数据集,如Therapeutics Data Commons (TDC) 和 MoleculeNet,现在已成为标准的评估资源(52 (https://arxiv.org/html/2606.11382#bib.bib19),18 (https://arxiv.org/html/2606.11382#bib.bib15))。 许多深度学习模型在分子性质预测中取得了强劲的性能,但缺乏更全面的化学表示,难以泛化到不同的下游任务,或者非常消耗资源(42 (https://arxiv.org/html/2606.11382#bib.bib35),43 (https://arxiv.org/html/2606.11382#bib.bib30),56 (https://arxiv.org/html/2606.11382#bib.bib36))。这一观察结果促使我们开发一种轻量级模型,该模型利用多种分子模态来增强特征表示,同时支持快速部署而不牺牲精度(56 (https://arxiv.org/html/2606.11382#bib.bib36),54 (https://arxiv.org/html/2606.11382#bib.bib7),24 (https://arxiv.org/html/2606.11382#bib.bib25))。 在这项工作中,我们的贡献如下: 1. (1)我们提出了用于化学推理和探索的图-语言对齐表示模型(GLACIER),这是一种多模态基础模型,通过从最先进的教师模型中蒸馏知识,并仅对100,000个类药分子进行对比预训练,来学习统一的分子表示。 2. (2)我们引入了一种新颖的基于芬斯勒(5 (https://arxiv.org/html/2606.11382#bib.bib12),8 (https://arxiv.org/html/2606.11382#bib.bib13))几何的融合机制,用于多模态分子表示学习,使用共享的Randers空间动态对齐图、SMILES(50 (https://arxiv.org/html/2606.11382#bib.bib60))和物理化学描述符嵌入,并整合互补的化学信息。 3. (3)我们证明了紧凑的多模态基础模型可以媲美并超越大得多的模型,在分子性质预测基准上取得最先进的性能,同时在推理时保持轻量和快速。我们的代码和教程公开在https://github.com/eemokey/glacier。 ## 2. 相关工作 ### 2.1. 分子表示学习 现有的分子表示学习方法大致可分为三类(9 (https://arxiv.org/html/2606.11382#bib.bib10),37 (https://arxiv.org/html/2606.11382#bib.bib59)):(1) 基于图神经网络的方法:诸如GraphMVP(31 (https://arxiv.org/html/2606.11382#bib.bib23))和GraphFP(32 (https://arxiv.org/html/2606.11382#bib.bib24))等方法利用对比学习框架,而MiniMol(24 (https://arxiv.org/html/2606.11382#bib.bib25))和Chemeleon(4 (https://arxiv.org/html/2606.11382#bib.bib26))提供结构洞察,但内存消耗大。(2) 基于变换器的方法:诸如ChemBERTa(7 (https://arxiv.org/html/2606.11382#bib.bib27),44 (https://arxiv.org/html/2606.11382#bib.bib29))、MolFormer(43 (https://arxiv.org/html/2606.11382#bib.bib30))、ChemGPT(13 (https://arxiv.org/html/2606.11382#bib.bib31))、ChemFM(12 (https://arxiv.org/html/2606.11382#bib.bib32))、MolBERT(28 (https://arxiv.org/html/2606.11382#bib.bib33))和SimSon(27 (https://arxiv.org/html/2606.11382#bib.bib34))等模型通过自注意力机制改进了全局分子表示的学习,但它们存在二次复杂度问题(49 (https://arxiv.org/html/2606.11382#bib.bib44))。(3) 基于混合的方法:结合基于图和基于变换器的方法的模型包括GROVER(42 (https://arxiv.org/html/2606.11382#bib.bib35))、Uni-Mol(56 (https://arxiv.org/html/2606.11382#bib.bib36),19 (https://arxiv.org/html/2606.11382#bib.bib37))和RMAT(34 (https://arxiv.org/html/2606.11382#bib.bib38))。然而,这些方法同样遭受高计算复杂度的困扰,导致训练和推理时间更长(23 (https://arxiv.org/html/2606.11382#bib.bib9))。为了解决可扩展性挑战,知识蒸馏已成为一种有前景的策略,其中知识从大型或集成教师模型转移到轻量级学生模型(10 (https://arxiv.org/html/2606.11382#bib.bib8))。尽管这种范式具有效率优势,但大多数分子蒸馏方法是单模态的,因此忽略了不同分子表示中存在的互补见解。GLACIER将大规模化学基础模型的知识蒸馏到一个单一的轻量级模型中,该模型整合了多模态表示,以克服现有分子性质预测方法中存在的挑战。 ### 2.2. 多模态学习 多模态学习包括对齐或融合数据类型以实现稳健推断的方法。分子图、SMILES字符串和物理化学描述符等模态的融合仍然具有挑战性(9 (https://arxiv.org/html/2606.11382#bib.bib10))。现有的融合方法包括简单的拼接、交叉注意力和对比学习(将数据对齐到共享空间)(39 (https://arxiv.org/html/2606.11382#bib.bib11))。最近的多模态工作包括CL-FMAP(55 (https://arxiv.org/html/2606.11382#bib.bib39))(分子图、SMILES字符串、Morgan指纹)和COATI(22 (https://arxiv.org/html/2606.11382#bib.bib40))(3D分子构象、SMILES),它们利用跨异构分子表示的对比对齐来显著提高模型性能。其他多模态工作包括GIT-Mol(30 (https://arxiv.org/html/2606.11382#bib.bib41))(分子图、SMILES字符串、图像)和FineMolTex(29 (https://arxiv.org/html/2606.11382#bib.bib42))(分子图、文本描述),它们通过交叉注意力合并模态,进一步证明了融合结构和语义分子信息的好处。遵循这些工作的先例,我们提出了一个框架,利用分子图、SMILES字符串和物理化学描述符的几何融合表示,作为将来自不同教师架构的互补知识蒸馏到一个高效模型中的有效接口。 ## 3. 提出的方法 在本节中,我们详细描述GLACIER的多模态师生蒸馏框架,如图2 (https://arxiv.org/html/2606.11382#S0.F2)1所示。整个流程的架构见附录D (https://arxiv.org/html/2606.11382#A4)中的算法1 (https://arxiv.org/html/2606.11382#alg1)和算法2 (https://arxiv.org/html/2606.11382#alg2)。 ### 3.1. 步骤1:多模态学生架构 GLACIER使用针对每种模态的编码器来整合不同模态中存在的信息。本工作的实现结合了:(1) 一个图编码器,用于提取分子图中的信息;(2) 一个文本编码器,用于提取SMILES字符串中的信息;以及(3) 一个表格编码器,用于从物理化学描述符中提取信息。 #### 3.1.1. 图编码器 为了捕获拓扑信息,我们采用消息传递神经网络(MPNN)(14 (https://arxiv.org/html/2606.11382#bib.bib43))。分子被表示为一个有向图G=\(V,E\)G=\(V,E\),其中消息在键之间迭代传递,并捕获局部化学环境。我们执行K=3K=3次消息传递步骤。为了构建分子嵌入hgraph∈R300\\mathbf\{h\}\_\{graph\}\\in\\mathbb\{R\}^\{300\},我们采用一种注意力聚合机制——一种使用学习加权平均来组合原子表示的读出函数,使模型能够动态地优先考虑分子图中化学相关的子结构。 (1)hgraph=Readout\(MPNN\(G\)\)\\mathbf\{h\}\_\{graph\}=\\text\{Readout\}\(\\text\{MPNN\}\(G\)\) #### 3.1.2. 文本编码器 为了捕获序列化学模式,文本编码器使用轻量级Transformer层,包括N=2N=2层,隐藏维度为dtext=128d\_\{text\}=128,八个注意力头。首先,我们使用一个定制的字节对编码(BPE)分词器处理SMILES字符串,该分词器在来自Enamine REAL数据库(650亿,版本2024.07)(11 (https://arxiv.org/html/2606.11382#bib.bib20))的100,000个随机采样分子上进行训练。我们将词汇量优化到紧凑的大小V=8000V=8000,优先学习化学语义子结构而非罕见的字符组合。分词器将SMILES字符串SS映射到一个固定长度的词元索引序列w∈RL\\mathbf\{w\}\\in\\mathbb\{R\}^\{L\},正式定义为: (2)w=BPE\(S\),wi∈\{0,...,V−1\}\\mathbf\{w\}=\\text\{BPE\}\(S\),\\quad w\_\{i\}\\in\\\{0,\\dots,V\-1\\\}其中序列被填充到L=512L=512并包含特殊分隔符以定义注意力机制的分子边界。然后,我们通过将可学习的词元嵌入与固定的正弦位置编码(\(PEPE\))相加来初始化编码器输入,以保留序列顺序信息。序列由Transformer层处理,最后一个隐藏层的输出被池化: (3)htext=Pool\(Transformer\(w\+PE\)\)\\mathbf\{h\}\_\{text\}=\\text\{Pool\}\(\\text\{Transformer\}\(\\mathbf\{w\}\+PE\)\) #### 3.1.3. 表格编码器 作为结构和序列表示的补充,我们使用一个表格编码器来整合全局物理化学描述符。输入由一个特征向量xtab∈R217\\mathbf\{x\}\_\{tab\}\\in\\mat
相似文章
用于多任务ADME性质预测的概率对比预训练
本文提出了一种用于分子图变换器的概率对比预训练框架,以改善药物发现中的多任务ADME性质预测,在三个基准上取得了显著提升。
可控分子生成基础模型
提出CoMole,一种基于基序感知图扩散和强化学习的可控分子生成基础模型,在材料和药物发现基准测试中实现了卓越的可控性。
基于Miller指数的潜变量晶体学断裂面推理与视觉-语言模型
本文研究多模态大语言模型(MLLMs)是否能够利用Miller指数作为潜变量表示,从视觉输入推理晶体学断裂几何,评估其推断物理有效平面假设的能力,并判断该表示在陶瓷、玻璃、金属和混凝土等材料中的适用性。
通过目标感知源选择重新思考分子OOD泛化
本文介绍了SCOPE-Bench,一个评估分子分布外泛化的基准测试,以及POMA,一个使用强化学习选择源域进行域自适应的框架,在3D分子模型上实现了显著的误差降低。
PolyFusionAgent: 多模态基础模型与自主AI助手,用于聚合物性能预测与逆向设计
PolyFusionAgent是一个框架,结合了多模态聚合物基础模型(PolyFusion)与工具增强、文献基础的设计智能体(PolyAgent),用于聚合物性能预测与逆向设计,实现证据关联的发现。