@SilkyDogfish:非常激动地发布我们来自 @Angstrom_ai 和 @AstraZeneca 合作的论文,评估我们的新模型……
摘要
Ångström AI 与 AstraZeneca 的合作推出了 CSP-MACE-Å,这是一种旨在替代晶体结构预测(CSP)中 DFT 的机器学习原子间势,以低得多的计算成本实现了相当的精度。
查看缓存全文
缓存时间: 2026/05/30 16:21
非常高兴地发布我们与 @Angstrom_ai 和 @AstraZeneca 合作的论文,该论文评估了我们的新模型 CSP-MACE-Å,这是一种旨在取代 DFT 在晶体结构预测 (CSP) 中的机器学习原子间势!https://arxiv.org/abs/2605.28905 1/5
机器学习原子间势实现 DFT 级精度的晶体结构预测
来源:https://arxiv.org/html/2605.28905 Laurence I. MidgleyÅngström AI, 旧金山, 美国剑桥大学工程实验室, Trumpington Street, CB2 1PZ, 剑桥, 英国 Chen LinÅngström AI, 旧金山, 美国剑桥大学工程实验室, Trumpington Street, CB2 1PZ, 剑桥, 英国 J. Harry MooreÅngström AI, 旧金山, 美国剑桥大学工程实验室, Trumpington Street, CB2 1PZ, 剑桥, 英国 Flaviano Della PiaÅngström AI, 旧金山, 美国剑桥大学工程实验室, Trumpington Street, CB2 1PZ, 剑桥, 英国 Javier AntoránÅngström AI, 旧金山, 美国剑桥大学工程实验室, Trumpington Street, CB2 1PZ, 剑桥, 英国 Sten O. Nilsson Lill预测科学,数字化与自动化,药物科学研发,阿斯利康,哥德堡,瑞典 Emma S. E. Eriksson预测科学,数字化与自动化,药物科学研发,阿斯利康,哥德堡,瑞典 Felix A. Faber预测科学,数字化与自动化,药物科学研发,阿斯利康,哥德堡,瑞典 Lars Tornberg预测科学,数字化与自动化,药物科学研发,阿斯利康,哥德堡,瑞典 Anders Broo预测科学,数字化与自动化,药物科学研发,阿斯利康,哥德堡,瑞典 Gábor CsányiÅngström AI, 旧金山, 美国马克斯·普朗克聚合物研究所, Ackermannweg 10, 美因茨, 55128, 德国剑桥大学工程实验室, Trumpington Street, CB2 1PZ, 剑桥, 英国
(May 27, 2026)
摘要
摘要
我们提出对 CSP-MACE-Å 的评估,这是一种旨在取代晶体结构预测 (CSP) 中 DFT 的机器学习原子间势。我们将总能量分解为独立的分子内和分子间分量,使每个分量能够针对其相互作用类型进行适当设计。对于分子内分量,我们采用 MACE-POLAR 架构并在 OMol25 数据集上对其进行训练。分子间模型旨在捕捉晶体结构中微妙的分子间相互作用。该分子间分量结合了三个项:来自 MACE-POLAR 模型的分子间贡献、具有 XDM 修正函数形式的长程色散项,以及一个训练用于重现 B86bPBE-XDM 分子间能量的学习 delta 模型。该学习 delta 模型基于从分子晶体结构上 50,000 次 B86bPBE-XDM 计算中导出的残余分子间目标进行训练。在由阿斯利康先前 CSP 出版物中选出的 19 种化合物(包括一种盐)组成的评估集上,CSP-MACE-Å 实现了与带有 Neumann–Perrin 色散修正的 PBE DFT 相当的性能。在由七次 CSP 盲测中整理的 28 种化合物(包括共晶和盐)组成的第二个评估集上,CSP-MACE-Å 实现了接近 B86bPBE-XDM DFT 的性能。在两个评估集中,使用简谐振子自由能重新排序相对于仅按能量排序显著提高了性能。在整个评估套件中,CSP-MACE-Å 被证明优于 MACE-POLAR-1 和 UMA-OMC 基础模型。最后,在五种化合物的集合上,CSP-MACE-Å 被证明能够通过对简谐振子近似下的自由能进行估计来捕捉多晶型相对稳定性的温度依赖性趋势。通过比 DFT 快数个数量级的速度运行,CSP-MACE-Å 能够对多得多的候选结构进行能量和自由能评估,从而在去风险化固体形式时提供更高的置信度。
††预印本:AIP/123-QED
I 引言
活性药物成分 (API) 的固态形式选择是药物开发的关键方面,因为它影响生物利用度、可制造性和稳定性。许多药物分子表现出晶体多晶型现象,其中不同的晶型具有不同的物理化学性质,如溶解度和溶出行为,使得形式选择既复杂又至关重要。多晶型现象带来显著风险,特别是那些可能在生产或储存过程中出现并改变产品性能的迟现形式。此类事件可能导致严重的开发和监管挑战,凸显了理解多晶型谱的重要性。尽管实验筛选是识别合适多晶型的主要方法,但它可能无法捕捉所有相关形式。计算方法,尤其是晶体结构预测 (CSP),提供了一种有价值的补充,能够更全面地探索可能的晶体结构[8 (https://arxiv.org/html/2605.28905#bib.bib1)]。这些策略共同支持稳健的形式选择,并降低意外固态转化的风险。
CSP 通常分为两个阶段:结构生成和能量排序。在生成阶段,会产生大量候选结构(通常数百万个)。这通常通过枚举可能的空间群和每个晶胞的分子单元数,结合随机结构生成来完成,以覆盖晶体结构景观。通过计算成本较低的方法(如经典力场)对结构进行初步排序,然后将其中一小部分(约 1000 个结构)传递到排序阶段。在排序阶段,使用计算成本更高、精度更高的技术对结构进行排序,以确定哪些是最稳定的。该阶段的最先进技术是色散修正 DFT (DFT-D),它一直主导着七次 CSP 盲测[25 (https://arxiv.org/html/2605.28905#bib.bib27),28 (https://arxiv.org/html/2605.28905#bib.bib26),11 (https://arxiv.org/html/2605.28905#bib.bib25),12 (https://arxiv.org/html/2605.28905#bib.bib24),2 (https://arxiv.org/html/2605.28905#bib.bib23),40 (https://arxiv.org/html/2605.28905#bib.bib22),21 (https://arxiv.org/html/2605.28905#bib.bib4),22 (https://arxiv.org/html/2605.28905#bib.bib3)]。通常,通过使用热自由能而不是晶格能量进行重新排序,可以在更高计算成本下获得更高的精度[14 (https://arxiv.org/html/2605.28905#bib.bib41)]。
尽管精度高,但 DFT 计算成本高且速度慢。晶体结构优化通常需要数小时,而自由能计算可能需要数天。机器学习原子间势 (MLIP) 提供了在 CSP 中取代 DFT 的可能性,可能将计算速度提升四个数量级,同时达到接近 DFT 的精度水平。最近的盲测是首次包含 MLIP 的盲测;然而,它们表现出的性能低于 DFT[21 (https://arxiv.org/html/2605.28905#bib.bib4)]。MLIP 在 CSP 中的主要挑战是需要对长程静电和色散进行建模,并准确捕捉微妙的分子间相互作用。最近发布的 MACE-POLAR-1 模型是一种 MLIP,它包含了对长程静电相互作用的原理性处理[3 (https://arxiv.org/html/2605.28905#bib.bib17)]。然而,该模型没有描述色散的长程尾部,并且是在 OMol25 数据集[24 (https://arxiv.org/html/2605.28905#bib.bib7)]上训练的,该数据集不包含晶体结构。在这项工作中,我们提出了对 CSP-MACE-Å 的评估,该模型解决了当前 MLIP 在 CSP 中的这些挑战。
快速替代模型的希望不仅在于取代现有 CSP 工作流程中的 DFT,还在于改变工作流程本身。速度的提升将允许在 CSP 的排序阶段研究更多的候选结构。这可以提高精度,尤其是在那些由于 DFT 成本过高而将可行多晶型排除在排序阶段之外的情况下[32 (https://arxiv.org/html/2605.28905#bib.bib10)]。类似地,它可以使自由能重新排序在实践中更加可行,而 DFT 的成本使得许多结构(或任何结构)无法计算其自由能。更广泛地说,ML 替代模型的速度使其能够在药物开发流程的更早期使用,并且与性质预测(例如固有溶解度)相结合将进一步扩展其效用。
II 方法
II.1 CSP-MACE-Å
CSP-MACE-Å 的预测能量被分解为独立的分子间和分子内分量:
EtotalCSP-MACE-Å = EintraCSP-MACE-Å + EinterCSP-MACE-Å (1)
这为根据相互作用类型合理设计模型的每个分量提供了灵活性。我们将分子内能量定义为晶体结构中每个组成分子在真空中孤立状态下的能量之和。然后我们定义分子间能量为:
Einter = Etotal - Eintra (2)
其中 Etotal 是具有周期性边界条件的完整系统的能量,Eintra 是分子内能量。这个定义是实用的而非规范的,并且使我们能够轻松地将任何能量函数分解为其分子内和分子间贡献。这种分解在 CSP 文献中很常见,有时被称为单体构象能量修正。它通常用于将更高级别的理论(如 DFT 或后 Hartree–Fock 方法)用于分子内项,而将成本较低的 DFT 方法用于分子间项[19 (https://arxiv.org/html/2605.28905#bib.bib39),21 (https://arxiv.org/html/2605.28905#bib.bib4)]。
II.2 分子内模型
对于 CSP-MACE-Å 的分子内分量,我们在 OMol25 数据集[24 (https://arxiv.org/html/2605.28905#bib.bib7)]上训练了文献[3 (https://arxiv.org/html/2605.28905#bib.bib17)]中描述的 MACE-POLAR 架构,采用中等规模设置。MACE-POLAR 架构在局部 MACE 架构的基础上进行了扩展,包含了对长程静电的原理性处理,这对 CSP 至关重要。OMol25 数据集由 1 亿次 ωB97M-V/def2-TZVPD[26 (https://arxiv.org/html/2605.28905#bib.bib51),39 (https://arxiv.org/html/2605.28905#bib.bib52)] DFT 计算组成,涵盖了广泛的化学空间。高水平的理论和数据集的规模使其非常适合训练分子内相互作用的模型。
然而,仅凭 MACE-POLAR 架构是不够的,因为它不包含长程色散,这对 CSP 至关重要。此外,训练 MACE-POLAR 模型所使用的 OMol25 数据集对于 CSP 中的分子间建模是一个糟糕的选择,因为它不包含任何晶体结构。此外,OMol25 是使用 ωB97M-V 生成的,其 VV-10 色散已知表现出过度束缚[20 (https://arxiv.org/html/2605.28905#bib.bib40)];因此 MACE-POLAR 模型继承了这一偏差。
II.3 分子间模型
对于 CSP-MACE-Å 的分子间分量,我们以 B86bPBE-XDM DFT[4 (https://arxiv.org/html/2605.28905#bib.bib50),36 (https://arxiv.org/html/2605.28905#bib.bib20),5 (https://arxiv.org/html/2605.28905#bib.bib48),23 (https://arxiv.org/html/2605.28905#bib.bib49)]为目标,因为它已被证明能准确捕捉晶体中的分子间相互作用。例如,它在七次 CSP 盲测[37 (https://arxiv.org/html/2605.28905#bib.bib11),27 (https://arxiv.org/html/2605.28905#bib.bib29)]中表现良好,并且在 X23 数据集上相对于扩散蒙特卡罗参考达到了最先进的晶格能量精度[13 (https://arxiv.org/html/2605.28905#bib.bib34)]。
为了构建分子间模型,我们将 MACE-POLAR 模型的分子间贡献与一个色散模型和一个学习 delta 模型相结合:
EinterCSP-MACE-Å = EinterMACE-POLAR + Einterdispersion + Einterdelta-model (3)
其中每个 Einter 项本身遵循方程 2 (https://arxiv.org/html/2605.28905#S2.E2) 中定义的函数形式。我们的色散模型遵循 XDM 色散修正的函数形式:
EXDM = -1/2 ∑{n=6,8,10} ∑{ij} C_{n,ij} / (R_{ij}^n + R_{vdW,ij}^n) (4)
其中 R_{ij} 是原子间距离,C6、C8 和 C10 是 XDM 原子色散系数,RvdW 是原子 i 和 j 的有效范德华半径之和。对于我们的色散模型,每个原子对 {i, j} 的参数 C_{6,ij}、C_{8,ij}、C_{10,ij}、R_{vdW,ij} 固定为从 Angstrom AI 内部 50,000 组 B86bPBE-XDM DFT 计算中估计的平均值。这为我们提供了一个计算成本低廉的 XDM 色散修正近似。色散模型的目的是准确捕捉长程分子间相互作用。我们依赖 EinterCSP-MACE-Å 的其他分量(即 EinterMACE-POLAR + Einterdelta-model)来捕捉短程分子间相互作用,在这些相互作用中,模型需要更强的表达能力。
分子间 delta 模型 Einterdelta-model 对分子间模型的其他分量进行修正,使其匹配 B86bPBE-XDM DFT。因此,我们训练分子间 delta 模型来预测 B86bPBE-XDM DFT 标签与 MACE-POLAR 模型和色散模型贡献之和之间的残差。delta 模型的能量目标是:
Einterdelta-target = EinterDFT - EinterMACE-POLAR - Einterdispersion (5)
对力和应力损失定义了类似的残差目标。我们在 Ångström AI 的内部数据集(包含 50,000 次 B86bPBE-XDM DFT 晶体计算)上训练分子间 delta 模型。能量和力的分子间贡献比分子内贡献小一个数量级以上。CSP-MACE-Å 参数化和训练的一个关键特征是,分子间相互作用的信号与分子内相互作用隔离开来,而在对总目标进行标准 MLIP 训练的情况下,分子内相互作用会主导损失。
III 结果与讨论
III.1 AZ 集合
参见图标题 图 1: AZ 评估集相对能量景观。每种化合物的左侧列为 PBE-NP DFT 能量排序,中间列为 CSP-MACE-Å 能量排序,右侧列为在 300 K 简谐振子近似下 CSP-MACE-Å 自由能排序。与实验多晶型匹配的生成结构用颜色显示,而不匹配的用灰色显示。我们使用 COMPACK[10 (https://arxiv.org/html/2605.28905#bib.bib12)],设置 RMSD15 < 0.6 Å,来确定哪些松弛结构匹配实验结构。
相似文章
@xbresson: 如何用AI设计材料?很高兴与@liu…合作推出Crys-JEPA这一新生成技术。
Crys-JEPA 引入了一种用于晶体的联合嵌入预测架构,该架构学习了一个能量感知的潜在空间,在从头晶体发现方面实现了稳定性和新颖性的显著提升。
The biggest AI breakthrough in medicine & drug discovery
MAML is a novel multi-modal AI model that unifies understanding of chemistry, genetics, and proteins, outperforming specialized models on 11 drug discovery benchmarks, promising to accelerate pharmaceutical research and improve success rates.
@SylvainGariel: 我花了一段时间才弄清楚大家对ESMFold2的热议是怎么回事。起初,基准测试数据看起来并不特别突…
ESMFold2是一个用于蛋白质结构预测的开源AI模型,在蛋白质相互作用和抗体方面达到了最先进的性能,并拥有庞大的结构数据库(ESM Atlas)。
基于深度学习的精确可扩展交换关联泛函
微软研究院发布 Skala——一种用于 DFT 的深度学习交换关联泛函,在 GMTKN55 主流化学基准上达到 2.8 kcal/mol 精度,成本仅为半局域泛函水平,全面超越传统泛函。
Gemma模型如何帮助发现新的潜在癌症治疗通路
Google DeepMind与耶鲁大学发布了C2S-Scale,这是一个基于Gemma构建的270亿参数基础模型,用于单细胞分析,该模型发现了一种有前景的药物组合(silmitasertib和干扰素),可增强“冷”肿瘤的免疫可见性,其预测已通过实验验证。