PRISMat:策略驱动、排列不变的自回归材料生成
摘要
PRISMat 是一种经济高效、排列不变的自回归模型,用于根据表面性质生成晶体切片,误差比以往模型低4倍,同时比LLM更高效。
arXiv:2605.16612v1 公告类型:新
摘要:快速识别具有目标特性的候选材料已成为材料科学的一项关键任务。机器学习已成为基于物理的模拟的替代方案,提供了一种更快速、更廉价的方法来根据材料的稳定性和其他目标特性进行筛选,从而减少进入昂贵合成阶段的候选材料数量。最近,大型语言模型(LLM)已被应用于这一角色,但这些模型参数庞大,在训练和推理时计算成本高昂,不适合高通量任务。这种低效源于语言模型的过度参数化以及将材料生成构建为序列学习问题的困难。在本文中,我们提出了PRISMat,一种经济高效、排列不变的模型,解决了这些局限性。我们表明,尽管PRISMat的推理时间更短,但在根据关键材料的表面性质生成晶体切片方面,它能够优于LLM。在定向材料发现中,我们在解理能和功函数任务上分别实现了0.188 eV/A$^2$和2.79 eV的平均绝对误差,将次优模型的误差降低了4$\times$。
查看缓存全文
缓存时间: 2026/05/19 06:34
# PRISMat:策略驱动、排列不变自回归材料生成
来源:https://arxiv.org/html/2605.16612
Claire Schlesinger
东北大学库利计算机科学学院
马萨诸塞州波士顿 02115
schlesinger\.e@northeastern\.edu
& Circe Hsu
东北大学库利计算机科学学院
马萨诸塞州波士顿 02115
hsu\.circe@northeastern\.edu
Peter Schindler
东北大学工程学院
马萨诸塞州波士顿 02115
p\.schindler@northeastern\.edu
& Robin Walters
东北大学库利计算机科学学院
马萨诸塞州波士顿 02115
r\.walters@northeastern\.edu
###### 摘要
快速识别具有目标特性的候选材料已成为材料科学中的关键任务。机器学习作为基于物理仿真的替代方案,提供了一种更快、更廉价的方法,根据材料的稳定性及其他目标特性进行筛选,从而减少进入昂贵合成阶段的候选数量。近年来,大型语言模型(LLMs)已被应用于这一角色,但这些模型参数庞大,在训练和推理时计算成本高昂,不适合高通量任务。这种低效率源于语言模型的大量过度参数化以及将材料生成视为序列学习问题的困难。本文提出 PRISMat,一种成本效益高、具有排列不变性的模型,以解决这些局限性。我们证明,尽管推理时间更短,PRISMat 在生成受关键材料表面特性条件约束的晶体板时,仍能优于 LLMs。在目标材料发现中,我们分别在解理能和功函数任务上实现了 0.188 eV/Ų 和 2.79 eV 的平均绝对误差,将次优模型的误差降低了 4 倍。
## 1 引言
参见图1说明
图1:生成单个晶体所需时间与亚稳态、独特且新颖(MSUN)晶体负比率之间的帕累托前沿。橙色方块表示自回归技术,蓝色圆圈表示纯扩散技术。PRISMat 性能与最佳扩散模型相当,并明显优于其他自回归 LLM 系统,表明它是最有效的自回归系统。
识别新材料的过程缓慢且昂贵,这是因为搜索空间广阔,且合成和评估候选材料存在困难。当试图识别具有特定理想特性的候选材料时,挑战更大。为加速这一过程,机器学习系统已被用于快速评估候选材料的稳定性和特性,并发现新材料 [31 (https://arxiv.org/html/2605.16612#bib.bib15), 30 (https://arxiv.org/html/2605.16612#bib.bib16), 37 (https://arxiv.org/html/2605.16612#bib.bib26), 10 (https://arxiv.org/html/2605.16612#bib.bib32), 6 (https://arxiv.org/html/2605.16612#bib.bib33), 20 (https://arxiv.org/html/2605.16612#bib.bib34)]。例如,已有几种方法提出生成具有目标带隙或空间群的候选材料 [42 (https://arxiv.org/html/2605.16612#bib.bib8), 4 (https://arxiv.org/html/2605.16612#bib.bib40), 7 (https://arxiv.org/html/2605.16612#bib.bib9), 19 (https://arxiv.org/html/2605.16612#bib.bib5)]。然而,这些方法仅生成体晶体,即理想化、无缺陷的结构,在三个维度上无限重复。实际上,所有晶体都是有限的,因此受到表面的约束,而在许多技术相关应用中,表面是材料特性的主要决定因素。这些特性对于电子发射器件和多相催化至关重要 [24 (https://arxiv.org/html/2605.16612#bib.bib43), 2 (https://arxiv.org/html/2605.16612#bib.bib44), 9 (https://arxiv.org/html/2605.16612#bib.bib45), 43 (https://arxiv.org/html/2605.16612#bib.bib46), 29 (https://arxiv.org/html/2605.16612#bib.bib47)]。它们还决定了半导体界面的接触势垒,并给出了纳米颗粒的近似形状 [12 (https://arxiv.org/html/2605.16612#bib.bib48), 5 (https://arxiv.org/html/2605.16612#bib.bib49), 38 (https://arxiv.org/html/2605.16612#bib.bib50), 27 (https://arxiv.org/html/2605.16612#bib.bib51)]。除了无法捕捉现实世界中的结构复杂性外,现有生成方法还有一个实用限制:计算成本,尤其是基于 LLM 的方法需要极高的推理时间,不适合高通量筛选。通常,基于 LLM 的方法一次性生成材料,通常直接输出 CIF 文件或其他晶体编码来表示结构。这种方法存在严重冗余:通过重新排序,许多 CIF 文件编码相同的晶体。这极大地扩大了输出空间,使理想结构的分布更难学习。当前方法试图通过强制 CIF 中的规范顺序或在训练中广泛使用数据扩充来解决此限制 [7 (https://arxiv.org/html/2605.16612#bib.bib9), 14 (https://arxiv.org/html/2605.16612#bib.bib12)]。通过规范化强制原子顺序不考虑底层物理,可能导致不稳定性 [26 (https://arxiv.org/html/2605.16612#bib.bib52)]。类似地,将原子顺序排列作为扩充可能鼓励模型学习排列不变性,但会显著增加训练时间,且无法完全解决问题。尽管存在这些缺点,自回归系统仍是策略引导生成的有吸引力的选择,因为它们可以纠正或拒绝某些不符合所需生成准则的晶体。
我们提出 PRISMat(PeRmutation-Invariant Sequential Material generation,排列不变序列材料生成),一种结合自回归生成与流匹配的系统,用于生成新材料。这使我们能够利用策略驱动的自回归生成的可控性以及流匹配提供的加速。PRISMat 通过以更有效的格式表示晶体,并以排列不变的方式进行训练,解决了自回归生成的问题。
PRISMat 由三部分组成:1)预测晶格参数的高斯混合模型;2)自回归预测原子的 E(3) 等变图神经网络(GNN);3)为每个原子分配位置的 E(3) 等变流匹配模型 [25 (https://arxiv.org/html/2605.16612#bib.bib22), 32 (https://arxiv.org/html/2605.16612#bib.bib21)]。这种三部分设置允许在每一步后进行干预,因此我们可以自定义生成过程。
PRISMat 通过将自回归模型的条件输出分布重新解释为晶体中剩余所有原子类型的累积分布,而不是下一个立即 token 的概率分布,从而实现排列不变性。虽然下一个 token 预测非常适合文本生成(其中顺序至关重要),但在材料生成中实际上是一种阻碍,因为不存在有物理意义的顺序。通过重新解释输出分布,我们的方法允许使用与文本生成相同的底层架构,同时强制适用于该场景的排列不变性。
我们的贡献包括:
- •我们提出了 PRISMat,首个自回归、排列不变的晶体生成框架。
- •我们分析了 PRISMat 的性能,以确定排列不变性和策略引导生成的优势,并优化了 PRISMat 的采样参数。
- •我们使用 Schindler 等人 [33 (https://arxiv.org/html/2605.16612#bib.bib30)] 的晶体板数据集,评估了我们的方法在解理能和功函数条件材料生成上的能力,并表明它优于其他自回归、条件化 LLM 技术,将条件生成的总误差降低了四分之一,并且是所有自回归模型中每个生成的亚稳态、独特且新颖(MSUN)结构时间最短的。
## 2 相关工作
#### 自回归图生成
排列不变性长期以来一直是自回归图生成的挑战。G-SchNet [13 (https://arxiv.org/html/2605.16612#bib.bib1)] 是一种用于生成旋转不变点图的自回归方法,用于分子生成。G-SchNet 通过依赖分子的结构来处理排列不变性:选择一个原子作为焦点,然后预测与之成键的原子。GraphRNN 通过将图表示为唯一序列并预测这些序列来构建图 [41 (https://arxiv.org/html/2605.16612#bib.bib2)]。GraphRNN 使用 BFS 节点排序方案来降低由于大量可能的节点排序而带来的复杂性。GCPN 使用生成对抗网络(GAN)和强化学习策略作为训练指导,自回归地构建图 [40 (https://arxiv.org/html/2605.16612#bib.bib20)]。GCPN 通过其判别器仅查看最终生成的结构来实现排列不变性,其奖励函数不依赖于原子放置的顺序。我们的方法独特之处在于,与 GCPN、GSchNet 或 GraphRNN 不同,它适用于晶体,其周期性结构意味着没有规范和有物理意义的顺序来预测原子。
#### 通过扩散生成材料
扩散模型是新晶体生成的热门选择 [39 (https://arxiv.org/html/2605.16612#bib.bib3), 18 (https://arxiv.org/html/2605.16612#bib.bib4), 23 (https://arxiv.org/html/2605.16612#bib.bib19), 19 (https://arxiv.org/html/2605.16612#bib.bib5), 28 (https://arxiv.org/html/2605.16612#bib.bib6), 42 (https://arxiv.org/html/2605.16612#bib.bib8), 7 (https://arxiv.org/html/2605.16612#bib.bib9)]。CDVAE 使用变分自编码器(VAE)添加逆设计能力,即创建具有所需特性的材料,然后使用扩散模型对输出进行去噪以产生新材料 [39 (https://arxiv.org/html/2605.16612#bib.bib3)]。我们的方法不同之处在于,我们不使用 VAE 并在潜在空间中优化属性,而是使用自回归生成并直接以所需属性为条件,从而简化训练和生成。另一种新晶体生成方法是 DiffCSP,一种纯扩散模型,利用周期性 E(3) 不变 GNN [18 (https://arxiv.org/html/2605.16612#bib.bib4)]。流匹配是扩散方法的替代方案,FlowMM 利用黎曼流匹配同时预测晶体结构和原子类型 [28 (https://arxiv.org/html/2605.16612#bib.bib6)]。我们也使用黎曼流匹配来预测原子位置,但使用自回归生成原子类型,因为它允许更少的生成步骤。
在晶体中,对称性由空间群完全描述,空间群对所有与三维晶格周期性一致的对称操作进行分类。这些空间群与化学特性和晶胞结构高度相关。SymmCD 将晶体的晶胞分解为非对称单元(通过对称变换可重现晶胞的最小单元),并用扩散模型预测它 [23 (https://arxiv.org/html/2605.16612#bib.bib19)]。MatterGen、DiffCSP++ 和 SGEquiDiff 都是使用空间群信息生成晶胞的扩散模型 [42 (https://arxiv.org/html/2605.16612#bib.bib8), 19 (https://arxiv.org/html/2605.16612#bib.bib5), 7 (https://arxiv.org/html/2605.16612#bib.bib9)]。MatterGen 以空间群编号为条件。DiffCSP++ 使用原子数量和位置的限制来辅助扩散,而 SGEquiDiff 完全等变于空间群,使用原子和 Wyckoff 位置上的限制来放置和扩散结构。有趣的是,SGEquiDiff 在扩散位置之前使用自回归方法预测原子类型和 Wyckoff 位置,但强制规定了预测原子类型的顺序。我们的方法与 SGEquiDiff 类似,但不需要预定义的原子顺序。相反,通过损失函数的选择在训练过程中强制排列不变性。此外,我们的方法不包含关于晶体空间群的任何显式信息,这提高了推理速度。
#### 自回归材料生成
一些自回归方法使用 LLM 预测新的 CIF 文件来生成新材料 [1 (https://arxiv.org/html/2605.16612#bib.bib10), 14 (https://arxiv.org/html/2605.16612#bib.bib12), 35 (https://arxiv.org/html/2605.16612#bib.bib7), 21 (https://arxiv.org/html/2605.16612#bib.bib13)]。CrystaLLM 从头开始在 CIF 上训练 LLM 以预测新的 CIF [1 (https://arxiv.org/html/2605.16612#bib.bib10)]。CrystaLLM-π 在 CrystaLLM 基础上进行了扩展,添加了一个系统,将属性值直接传递到 transformer 的每一层,而不是放在文本提示中 [4 (https://arxiv.org/html/2605.16612#bib.bib40)]。CrystalLLM 使用预训练的 LLM 并在额外的 CIF 上进行微调以生成新的 CIF [14 (https://arxiv.org/html/2605.16612#bib.bib12)]。FlowLLM 从 CrystalLLM 获取 CIF 输出,并使用流匹配模型来优化输出 [35 (https://arxiv.org/html/2605.16612#bib.bib7)]。CrysLLMGen 与 FlowLLM 类似,但使用扩散模型进行优化 [21 (https://arxiv.org/html/2605.16612#bib.bib13)]。LLMatDesign 与其他方法不同,它从初始组成和设计条件开始使用 LLM,并自回归地预测变化,直到达到所需的材料特性 [17 (https://arxiv.org/html/2605.16612#bib.bib11)]。虽然我们的方法受到 LLM 式训练和生成的启发,但它不操作语言,因为 CIF 对晶体的表示不如晶胞好。相反,它直接预测原子类型,不使用因果掩码,而是选择在模型设计中强制排列不变性。
## 3 背景
在本节中,我们介绍理解 PRISMat 所需的背景知识。我们概述晶体晶胞的数学表达,简要介绍自回归生成和黎曼流匹配的过程,提供等变性的正式定义,并涵盖与我们的条件板生成任务相关的必要背景信息。
### 3.1 晶体晶胞和晶体板的定义
晶体的定义特征是原子的周期性结构。由于这种周期性,晶体可以紧凑地表示为晶胞,即晶体的平行六面体子部分。晶胞提供了无限重复晶体结构的计算高效表示。完整的晶体可以通过沿所有三个晶格基向量平铺晶胞来重建。一个晶体 \(C\) 由三元组 \(C = (L, A, X)\) 定义,其中 \(L = (l_1, l_2, l_3) \in \mathbb{R}^{3 \times 3}\) 是定义晶体周期性边界的三个晶格向量,\(A = (a_1, a_2, \ldots, a_N) \in \text{atoms}^N\) 是原子类型,其中 \(\text{atoms}\) 是可用元素集,\(N\) 是晶胞中的原子数,\(X = (x_1, x_2, \ldots, x_N) \in [0, 1)^{N \times 3}\) 是晶体中的分数坐标,表示原子在晶胞中的位置,作为沿晶格向量距离的分数。相似文章
PRISM:面向多层薄膜设计的位置编码回归逆光谱模型
PRISM是一种仅解码器的自回归变换器,通过联合预测材料选择和厚度来解决多层薄膜光学涂层设计的逆问题,以更小的模型实现了最先进的性能。
CRMA: 一种用于LLM模块化持续微调的谱界主干
CRMA引入了一种谱界残差适配器,通过Sinkhorn归一化强制实现双随机混合矩阵,使LLM能够持续微调而不发生灾难性遗忘。在Mistral-7B和Gemma-2-9B上的实验结果表明,与冻结基底的基线相比,后向迁移得到改善,遗忘减少。
PRISM:一种将漂移分解为尺度、形状和头部的几何风险界
本文介绍了 PRISM,这是一种几何风险界,将训练后大型语言模型(LLM)变体中的模型漂移分解为尺度、形状和头部三个维度,以诊断量化误差或灾难性遗忘等特定故障模式。
@xbresson: 如何用AI设计材料?很高兴与@liu…合作推出Crys-JEPA这一新生成技术。
Crys-JEPA 引入了一种用于晶体的联合嵌入预测架构,该架构学习了一个能量感知的潜在空间,在从头晶体发现方面实现了稳定性和新颖性的显著提升。
CrystalReasoner: 面向属性条件晶体结构生成的推理与强化学习
CrystalReasoner 是一个大型语言模型(LLM)框架,通过将物理先验作为思考令牌并使用强化学习,从自然语言生成晶体结构,确保有效性、稳定性和属性条件生成。