将语言模型与基于物理的模拟相结合用于无机材料的合成
摘要
提出了一种混合框架,将大型语言模型与热力学数据库及简化的动力学模型相结合,用于无机合成规划,并以铌-氧系统作为案例研究。
arXiv:2606.00315v1 Announce Type: new
摘要:现代生成式机器学习模型可以提出具有目标性能的新型无机晶体材料;然而,由于相关物理过程的复杂性和计算工具的有限可用性,这些材料的合成规划仍然困难。我们引入了一种新颖的混合框架,通过结合热力学数据库与简化的动力学模型来近似现实合成条件,以评估大型语言模型(LLMs)在无机合成规划中的表现。作为案例研究,我们聚焦于铌-氧系统,该系统包含多个具有良好特征数据的工业相关氧化物相。在计算模拟中,我们将LLM生成的合成路径与经典路径规划算法进行比较,表明LLM中的隐式先验可以产生更可行的策略。在我们的评估设置中,经典搜索方法主要作为对比参照而非直接竞争者。这说明了问题的相对复杂性,并突出了LLM的隐式先验增加价值的地方。
查看缓存全文
缓存时间: 2026/06/02 15:46
# 将语言模型与基于物理的模拟相结合用于无机材料合成
来源:https://arxiv.org/html/2606.00315
Edward W. Staley, Tom Arbaugh, Michael Pekala, Alexander New, Christopher D. Stiles, Nam Q. Le 约翰霍普金斯大学应用物理实验室,劳雷尔,马里兰州 20723 \{firstname.lastname\}@jhuapl.edu &Gregory Bassen, Wyatt Bunstine, Tyrel McQueen 约翰霍普金斯大学,巴尔的摩,马里兰州 21218 [email protected]
###### 摘要
现代生成式机器学习(ML)模型能够提出具有目标性能的新型无机晶体材料;然而,由于相关物理过程的复杂性和计算工具的有限可用性,这些材料的合成规划仍然困难。我们引入了一种新颖的混合框架,将热力学数据库与简化的动力学模型相结合,以近似现实的合成条件,从而评估大型语言模型(LLM)在无机合成规划中的能力。作为案例研究,我们聚焦于铌-氧体系,该体系包含多个具有良好表征数据的工业相关氧化物相。在计算模拟中,我们将LLM生成的合成路线与经典路径规划算法进行比较,表明LLM中的隐式先验可以产生更可行的策略。在我们的评估设置中,经典搜索方法主要作为对比对象而非直接竞争对手。这说明了问题的相对复杂性,并突出了LLM的隐式先验在何处增加了价值。
## 1 引言
新型无机材料的发现和合成支撑着能源技术、电子学、催化和结构应用方面的进步。生成式ML模型已成为提出具有目标性能的候选材料的有力工具(wilfong2025ternary)。这类模型可以采样广阔的材料设计空间,但将计算设计的材料转化为可行合成计划的后续步骤构成了一个重大瓶颈。设计合成计划的传统方法,例如探索能量景观,缺乏确定反应坐标的可靠方法,通常基于文献来源、直觉和科学家经验的组合。
我们提出了一个使用混合框架对LLM进行无机合成规划初步评估的方法,该框架通过简化的动力学模型增强热力学数据库。作为案例研究,我们研究了二元铌-氧体系,这是一个化学丰富的空间,具有多个工业相关的氧化物相和良好表征的热力学特性。通过比较LLM生成的合成路线与经典路径规划算法的结果,我们评估了LLM中嵌入的科学先验在多大程度上能提高规划质量。
## 2 相关工作
LLM在涵盖科学文献和通用文本的庞大数据集上训练,为增强合成规划工具提供了丰富的可能性。
在材料应用之外,有一些工作考虑了当前生成模型在更普遍的问题推理中的适用性(shojaee2025illusion)。LLM编码先验知识的能力增加了它们生成有依据的合成途径的可能性,并且许多工作已经考虑了利用生成模型来评估或确定合成途径。pu2024leveraging评估了LLM在响应基于文本的知识提示方面的能力,这些提示聚焦于金纳米颗粒的合成。更直接的合成路径预测,即前驱体和条件的识别,由prein2025language进行,包括针对固态合成中特定反应数据集的基准测试。在这项工作中,我们提出了一种补充方法,使用近似但基于物理的热力学模拟,而不是特定的反应数据集,对跨广泛材料系统提出的路线进行定量评估。
## 3 方法
### 3.1 材料系统与问题陈述
使用基于物理的模拟进行评估依赖于经过充分验证的热化学数据的可用性。我们使用二元\chNb-O系统作为案例研究;相图显示在补充信息(SI)的图2 (https://arxiv.org/html/2606.00315#A1.F2)中。该系统表现出几个竞争的固体氧化物相,这使我们能够提出不同复杂度的挑战。在充分理解的系统(如\chNb-O)中对合成模型进行基准测试,将为未来扩展到相图未完全评估的系统做好准备,而这正是新型材料最终需要的。
为了模拟系统的动力学,我们采用Johnson-Mehl-Avrami (JMA) 类型的动力学方法,其中相分数根据 f(Δt)=(feq-f0)[1-exp(-kΔt)] f(Δt)=(f_{eq}-f_{0})\[1-\exp(-kΔt)\] 演化,其中 f0和 feq分别是初始平衡相分数,k是由 k=k0exp[-Ea/(RT)] k=k_{0}\exp\[-E_{a}/(RT)\] 给出的速率常数,Ea为活化能,R为气体常数,T为温度。
使用PyCalphad (Otis2017pycalphad) 和 tdb 热力学数据库,通过CALPHAD技术计算平衡相分数,温度间隔为10 K (300 K 到 3000 K),成分间隔为1 at.%。我们设定 Ea=95.4 kJ/mol,基于实验报道的Nb扩散限制氧化活化能 (diffusion;oxidation),并设 k0=100 s^{-1},以重现报道的\chNb向\chNb2O5在900 K下转化的时间尺度 (diffusion)。
表1 (https://arxiv.org/html/2606.00315#S3.T1) 显示了我们评估的四个挑战问题。每个问题由一个起始状态和一个期望的目标状态组成,“状态”定义为材料系统中实现相的凸组合以及相关的温度(假设压力固定为1 bar)。这些问题被设计为具有不同的难度。它们在特征上有所不同,例如需要温度变化、单相或多相,和/或遍历相图中的“中间”相。SI中的表3 (https://arxiv.org/html/2606.00315#A1.T3) 提供了关于挑战的更多细节。
表1:使用基于物理的模拟器评估的四个挑战问题。针对每个挑战,必须提供合成“配方”,可能包含三个选项的任意序列:添加前驱体、改变温度或等待。“添加前驱体”可以从两种纯化合物中选择:Nb或O2。“改变温度”可以设置300 K到3000 K之间的任何温度。“等待”保持温度和成分不变,同时允许相分数根据模拟器建模的热力学和动力学进行演化。
执行合成配方会导致某个最终状态,然后通过将其与问题目标状态进行比较来评分。任何未能在20 K内达到最终温度的解被认为无效并分配最大误差1.0。否则,通过计算目标相分数与实际相分数之间的缩放均方误差来对解决方案进行评分。未来,可以考虑其他评分方法,包括添加中间约束(例如避免禁止的中间相)或在评估相差时更仔细地考虑单纯形的几何形状。
### 3.2 候选合成规划模型
我们比较了两种根本不同的解决合成规划问题的方法:(1) 作为经典路径规划问题,以帮助量化问题难度;(2) 利用LLM探索包含先验知识。有许多经典方法(例如Kocsis2006mcts)将问题视为搜索空间。我们选择使用A∗搜索 (astarpaper),因为它简单,并且达到目标小百分比的精度是可以接受的。A∗的搜索启发式说明了可以通过数学表达式引导但难以用抽象先验或领域知识塑造的技术。我们将状态空间沿相分数、元素分数和温度维度各离散化为100个区间。对于A∗中发现的状态,达到该状态的成本取路径中的步数。我们用于估计到达目标剩余成本的启发式是两个归一化状态之间的欧几里得距离。
与经典路径规划相比,LLM具有材料合成的先验知识,并且可以通过提示获得更多知识。我们还为LLM提供对模拟器本身的访问,它可以在生成解决方案时将其调用为“工具”。这类似于数学领域,LLM与工具(例如,定理证明器)配对以推导新结果。
请注意,虽然LLM引导的合成搜索可以包含先验知识,但它的计算成本也更高,并且多步LLM推理是一个开放的研究领域 (aghajohari2025markovianthinker; fei2023extendingcontextwindowlarge)。我们指示LLM继续尝试一个问题,直到得出结论(图4 (https://arxiv.org/html/2606.00315#A1.F4)),并且没有以其他方式限制其生成长度。我们让A∗运行直到找到解决方案或在构建搜索图时耗尽系统资源(128GB RAM)。
我们的LLM实现为基于ReAct的代理 (yao2023react),使用声明式自改进Python (DSPy) 框架 (khattab2024dspy; khattab2022demonstrate),我们将其附加到OpenAI的GPT4o模型 (openai2024gpt4o)。GPT4o被选为一个最先进的非推理模型,我们可以通过提示自己引入推理过程。当然,未来的工作会比较多模型,包括推理与非推理变体。鉴于上下文学习的性能取决于提示 (min2022rethinking),我们还考虑了以更系统的方式设计此提示的策略。在这项初步研究中,我们利用了DSPy的提示调优能力;特别是它的LabeledFewShot策略,该策略给定一个训练数据集,随机选择k=4个新示例添加到提示中。¹注意DSPy包括更复杂的优化策略,我们计划在未来探索。我们使用随机采样作为初始概念验证,以确定提示调优是否有前景。
## 4 结果与讨论
我们的主要结果²总结在表2 (https://arxiv.org/html/2606.00315#S4.T2) 和图1 (https://arxiv.org/html/2606.00315#S4.F1) 中;前者显示了A∗和LLM代理在挑战问题上的比较,后者显示了分数的完整分布,并比较了LLM在提示调优前后的表现。对于表2 (https://arxiv.org/html/2606.00315#S4.T2),“成功”定义为最终状态在目标状态的某个近似ε-球内;当然,未来的工作可能会考虑其他标准。由于搜索空间是确定性的,我们只运行A∗一次,导致100%成功或失败。为了考虑LLM生成的随机性,我们对每个问题运行LLM十次。总的来说,我们发现LLM和A∗在四个挑战中都表现出一定的性能变化。LLM的相对有效性表明其科学先验确实传递到了我们的模拟环境中。初步提示调优的结果(图1 (https://arxiv.org/html/2606.00315#S4.F1))表明,在未来的工作中考虑更仔细的优化很重要。
表2:A∗和LLM(无提示调优)结果比较。“访问状态数”是在方法应用过程中模拟的状态转换的大致数量。参考图注:图1:LLM在4个挑战问题(CP)上的表现。(左) 原始手动策划提示的表现;(右) 挑战3在提示调优前(绿色)和调优后(紫色)的表现。我们运行提示调优过程5次(使用不同的种子),因此有更多的紫色数据点而不是绿色。
挑战1和4都被A∗和LLM解决了。然而,A∗探索的状态数量比LLM多了几个数量级。挑战2和3包含多相目标,对两种方法来说都更困难。在挑战2上,LLM获得了正确的相,但未获得正确的分数。在挑战3上,LLM只能在提示调优后找到解决方案。A∗在找到挑战2和3的解决方案之前耗尽了系统资源。应用A∗的一个关键挑战是,虽然到目标的距离主要用相分数来衡量,但可用的模拟选项仅包括元素组成、温度和时间的步长。这些空间之间的关系是由模拟本身提供的,很难先验估计,这使得经典搜索策略(即使是利用启发式的策略)变得不切实际。相比之下,LLM能够利用训练数据和提示信息,而不是显式的距离概念,来尝试该领域内合理的方法。LLM输出的示例在5 (https://arxiv.org/html/2606.00315#A1.F5) 和6 (https://arxiv.org/html/2606.00315#A1.F6) 中提供。
## 5 结论
这项工作提供了三个主要结果。首先,我们展示了一种使用简单的基于物理的模拟作为虚拟“测试平台”来评估LLM提出材料合成计划能力的策略。其次,我们识别了合成问题,其中LLM的隐式先验似乎有助于比朴素搜索方法更有效地找到解决方案。第三,仍然存在一些非常简单的合成问题,A∗和示例LLM都无法解决;然而,这个框架提出了通过调用基于物理的工具来约束LLM预测的简单方法。我们的模拟和提示优化策略都处于初期阶段,有许多机会使这种方法更适用于实际的合成路径规划。
## 致谢与资金披露
EWS、TA、MP、CDS和NQL感谢约翰霍普金斯大学应用物理实验室独立研发(IR&D)计划的内部财政支持,该计划资助了部分工作。我们感谢审稿人富有价值的反馈。
## 参考文献
## 附录A 补充信息
### A.1 相图
对于本研究用作案例研究的二元\chNb-O系统,图2 (https://arxiv.org/html/2606.00315#A1.F2) 中显示了两个相图。实验相图复制自okamoto1990nb,我们使用PyCalphad实现的CALPHAD方法,利用tdb数据库计算了相图。同样的数据库与PyCalphad一起用于计算热力学平衡时出现的相分数,这作为第3.1节 (https://arxiv.org/html/2606.00315#S3.SS1) 描述的JMA型动力学近似的输入。
参考图注:(a) 实验型。
参考图注:(b) 计算型 (CALPHAD)。
图2:\chNb-O的相图。注意实验(a)与计算估计(b)的相之间良好的一致性。“L”表示液相,“rt”表示金红石型\chNbO2相,“H”表示单斜\chNb2O5相,“at.%”表示原子百分比。
### A.2 挑战问题的细节
用于评估A∗和LLM生成合成能力的四个合成挑战相似文章
利用主动学习构建集成热能系统的基于物理的数字孪生
本文提出了一种主动学习框架,将高保真 Modelica 仿真与更简单的代理模型(SINDyC、FNN、GRU)相结合,以创建高效的热能分配系统数字孪生。该方法在保持预测精度和实现不确定性量化的同时,显著减少了所需的仿真轨迹数量。
Synthics: 用于机器学习的类物理合成数据集
一种利用贝叶斯概率上下文无关文法生成结构上类似物理方程的合成回归数据集的方法,该方法已在费曼语料库上得到验证,并证明对超参数调优有效。
基于大语言模型的物理蒸馏神经网络用于制造过程-属性预测建模
本文提出了一种新颖框架,利用大语言模型从科学文献中提取解析物理先验知识,并将其蒸馏到一个轻量级神经网络中,即使在数据有限的情况下,也能实现对制造过程-属性的高精度实时预测。
不是语言模型,而是工具:面向科学工作流的确定性中介
本文提出了类型化中介(typed mediation),即语言模型编排确定性工具而非生成分析代码,从而确保多次再生输出一致。在光致发光分析上的评估表明,该模式在多次运行中实现了完美的可重复性,而商业基础模型则无法做到。该模式已成功部署于实际仪器中。
更准确模拟金属合金行为的新方法
麻省理工学院的研究人员开发了一种基于机器学习的方法,能够准确模拟金属合金的行为,无论其化学复杂性如何,从而实现更快、更便宜的材料创新。