CrystalReasoner: 面向属性条件晶体结构生成的推理与强化学习

arXiv cs.AI 2026/05/15 04:00 论文

reasoning reinforcement-learning crystal-structure generative-model materials-discovery llm

摘要

CrystalReasoner 是一个大型语言模型（LLM）框架，通过将物理先验作为思考令牌并使用强化学习，从自然语言生成晶体结构，确保有效性、稳定性和属性条件生成。

arXiv:2605.14344v1 公告类型：新摘要：生成式建模已成为晶体结构发现的一种有前景的方法。然而，现有的基于LLM的生成模型在原子级别的精确性上存在困难，而基于扩散的方法则在整合高层科学知识方面有所不足。因此，生成的结构常常无效、不稳定或不具备所需属性。为解决这一问题，我们提出了 CrystalReasoner (\method)，这是一个端到端的LLM框架，通过推理和对齐从自然语言指令生成晶体结构。\method 在生成原子坐标之前引入物理先验作为思考令牌，包括晶体对称性、局部配位环境以及预测的物理性质。这弥合了自然语言与三维结构之间的差距。然后，\method 采用强化学习（RL）和一个多目标、密集奖励函数，使生成过程与物理有效性、化学一致性和热力学稳定性对齐。对于属性条件任务，我们设计了特定任务的奖励函数，并针对离散约束（如空间群）和连续属性（如弹性、热膨胀）训练了专门模型。实验结果表明，与之前的工作以及没有思考痕迹或RL的基线相比，\method 在多种指标上取得了更好的性能，将S.U.N.比率提高了三倍，并在属性条件生成中实现了更优的性能。\method 还展现了自适应推理能力，随着原子数量的增加，推理长度也随之增加。我们的工作展示了利用思考痕迹和RL生成有效、稳定且属性条件的晶体结构的潜力。详情请参见我们的工作：https://crystalreasoner.github.io/ 。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:23

# CrystalReasoner：面向属性条件的晶体结构生成的推理与强化学习  
来源：https://arxiv.org/html/2605.14344  
吴宇阳1 清华大学 北京，中国 [email protected]  
&Stefano Falletta2 Radical AI [email protected]  
&Delia McGrath2 Radical AI [email protected]  
Sherry Yang3 纽约大学 纽约，纽约州，美国 [email protected]  

###### 摘要  
生成式建模已成为晶体结构发现的一种有前景的方法。然而，现有的基于LLM的生成模型难以实现精确的原子尺度定位，而基于扩散的方法则在整合高级科学知识方面存在不足。因此，生成的晶体结构往往无效、不稳定或缺乏所需性质。为弥补这一差距，我们提出CrystalReasoner (CrysReas)，一个端到端的LLM框架，通过推理和对齐从自然语言指令生成晶体结构。CrysReas将物理先验知识作为思维令牌引入，包括晶体学对称性、局部配位环境以及在生成原子坐标之前预测的物理性质。这弥合了自然语言与三维结构之间的鸿沟。CrysReas随后采用强化学习 (RL) 结合多目标、密集奖励函数，以对齐生成结构的物理有效性、化学一致性和热力学稳定性。对于属性条件生成任务，我们设计了任务特定的奖励函数，并针对离散约束 (如空间群) 和连续属性 (如弹性、热膨胀) 训练了专用模型。实验结果表明，与先前的工作以及没有思维链或RL的基线相比，CrysReas在多个指标上取得了更好的性能，将S.U.N. (稳定、独特且新颖) 比率提升三倍，并在属性条件生成方面实现了更优表现。CrysReas还展现出自适应推理能力，其推理长度随原子数量的增加而增长。我们的工作展示了利用思维链和RL生成有效、稳定且满足属性条件的晶体结构的潜力。详情请参见我们的工作：https://crystalreasoner.github.io/。

## 1 引言  
现代技术日益依赖新型材料的开发，例如用于电池的固态电解质 (Zhao等 (2020))、高性能催化剂 (Goldsmith等 (2018)) 和功能性半导体 (Davies等 (2018))。传统的晶体结构发现计算方法，如随机搜索 (Pickard和Needs (2011)) 和粒子群优化 (Wang等 (2010))，由于每次搜索迭代中都需要进行显式的能量评估，计算量巨大。相比之下，生成式模型通过绕过昂贵的搜索和能量评估步骤，提供了一种可扩展的替代方案 (De Breuck等 (2025))。

尽管生成式建模取得了进展，但现有的晶体结构生成模型仍有局限。例如，基于扩散的模型 (Yang等 (2023); Xie等 (2021); Chen等 (2025); Jiao等 (2023, 2024); Kelvinius等 (2025); Joshi等 (2025)) 在三维结构或潜在空间中运行，难以整合丰富的文本知识 (例如，教科书中的成分、性质)。为了融入科学知识，一些工作 (Yang等 (2024c); Inizan等 (2025); Khastagir等 (2025)) 使用LLM生成化学式，然后利用扩散模型生成以化学式为条件的结构。然而，这种解耦的架构将语义推理和结构生成分离到不同的模块中，阻碍了端到端训练和联合优化。

另一方面，微调LLM以直接生成晶体信息文件 (CIFs) 在整合科学知识方面具有巨大潜力，因为大多数LLM已在科学文本上进行了预训练。然而，近期的一些尝试 (Antunes等 (2024); Gruver等 (2024); Mohanty等 (2026); Gan等 (2025); Xu等 (2025)) 面临一个关键挑战：LLM的分词器将三维坐标展平成字符串，丢失了对称性和空间约束，导致空间群精度较低 (例如，在CrystalTextLLM中仅为24%)。此外，基于LLM的方法普遍存在生成的原子位置精度不足的问题，并且缺乏在生成结构中强制物理有效性、稳定性和属性条件的机制。

为弥补这一差距，我们从LLM在推理和通过可验证反馈进行RL对齐方面的发展中汲取灵感。我们提出CrystalReasoner (CrysReas)，这是一个端到端框架，通过推理和对齐将高级文本指令转换为高保真的低级晶体结构，如图1所示。首先，CrysReas被微调以在输出原子坐标之前生成作为思维痕迹的物理先验知识，遵循从抽象到具体的推理过程：依次推理晶体学对称性、局部配位环境和预测的性质 (如结构体积、形成能)。通过引入三维结构的符号化文本表示，LLM可以在生成结构本身之前首先对三维结构进行推理，从而使结构生成更加易于处理。其次，为提高生成原子位置的精度，我们应用了RL，并结合了精心设计的多目标密集奖励函数，涵盖物理有效性、化学有效性和热力学稳定性，从而引导生成有效且低能量的构型。为了实现属性条件生成，CrysReas采用具有特定属性奖励的RL，支持针对离散约束 (如空间群) 和连续属性 (如弹性、热膨胀) 进行优化，这些属性通过代理MLIP计算 (Yang等 (2024b))。通过将稳定性奖励与特定属性目标相结合，CrysReas可以针对各种材料设计场景进行专业化定制，而无需修改模型架构。

图1：CrystalReasoner流程概览。LLM被微调以先从抽象到具体的方式生成思维痕迹，然后输出原子坐标。使用多目标密集奖励进行RL (GRPO) 对齐。该模型可用于以化学式为条件的生成，并可进一步利用特定属性奖励进行专业化，用于属性条件生成。

我们的评估表明，CrysReas在生成有效和低能量结构方面，始终优于没有思维链或RL的模型变体以及基线方法，并通过密度泛函理论 (DFT) 计算验证 (Hohenberg和Kohn (1964); Kresse和Furthmüller (1996))。此外，与之前基于LLM的晶体生成方法相比，CrysReas将稳定、独特且新颖 (S.U.N.) 的发现比率提升三倍。值得注意的是，CrysReas还展现出自适应推理能力，其推理长度随原子数量的增加而增长。对于属性条件生成，我们发现针对弹性和热膨胀进行RL训练，能够持续提高生成结构落入这些属性指定范围内的概率。

总之，我们的贡献有四个方面：  
1. **物理先验作为思维令牌**：一种新颖的策略，指示LLM在生成原子坐标之前生成显式的物理先验知识，从而改进三维推理。  
2. **RL全局对齐**：一个具有多目标密集奖励的RL框架，提高了数值精度，并引导生成的结构趋向热力学平衡。  
3. **任务专用属性条件生成**：针对属性条件生成设计的独立奖励函数，无需修改模型架构。  
4. **整体性能更优**：与先前的工作和基线相比，CrysReas在多个指标上取得了优越的性能，将S.U.N.发现比率提升三倍，并提高了属性条件生成的质量。

## 2 预备知识  
在本节中，我们定义符号，并提供关于面向晶体结构生成的LLM以及面向LLM的强化学习的背景知识。

### 2.1 面向晶体结构生成的LLM  
遵循先前的工作 (Gruver等 (2024); Antunes等 (2024))，我们将晶体结构生成表述为由LLM πθ进行的令牌序列生成。给定一个自然语言描述 c (例如，化学式、空间群)，LLM自回归地生成一个表示晶格参数和原子坐标的令牌序列 a0:N：
```
πθ(a0:N | c) = ∏_{t=0}^{N} P(at | a_{<t}, c)
```
示例生成的CIF片段：
```
P16.35844783 6.35844725 6.35844589
46.3714 46.3714 46.3714
Ca 1 0.50000000 0.50000000 0.50000000
Ca 1 -0.00000000 0.00000000 -0.00000000
C 1 0.75000000 0.75000000 0.75000000
C 1 0.25000000 0.25000000 0.25000000
O 1 0.75000000 0.49216771 0.00783229
O 1 0.00783229 0.75000000 0.49216771
O 1 0.50783229 0.99216771 0.25000000
O 1 0.25000000 0.50783229 0.99216771
O 1 0.99216771 0.25000000 0.50783229
O 1 0.49216771 0.00783229 0.75000000
```

## 附录C：指标与奖励  
我们详细说明用于评估的指标以及构成RL目标的奖励组件。

#### 结构与化学一致性  
这些指标评估生成晶体的物理合理性。一个结构若满足基本几何约束，则被认为是结构有效的：所有原子间距离 > 2 Å，晶胞体积 V > 4.0 Å³，晶格长度 a, b, c > 1.1 Å，以及晶格角度 α, β, γ ∈ [20°, 160°]，遵循CDVAE的检查器 (Xie等 [2021])。利用SMACT (Davies等 [2019])，如果一个结构的组成元素可以被分配满足电中性并产生稳定电荷构型的氧化态，则该结构是化学有效的。相应的奖励组件定义为：
```
R_structural = 1{所有几何约束满足}
```
```
R_chemical = 1{电荷中性和氧化态合理}
```
两者均为二元指示器，条件满足时为1，否则为0。它们提供了关于晶体基本质量的即时、可解释的反馈。

#### 能量与热力学稳定性  
主要的稳定性指标是凸包线上能量 E_hull (eV/atom)，在训练期间通过代理MLIP (MatterSim) 计算，并通过DFT进行事后验证。若 E_hull < 0.016 eV/atom，则认为结构稳定，遵循Materials Project的惯例 (Jain等 [2013])。我们不直接使用原始的负能量奖励 (-E_hull)，因为它有三个缺点：当MLIP无法生成有效的E_hull (例如，对于高度扭曲的结构) 时无法提供信号；其无界范围导致训练不稳定；其梯度很小，在最优值附近灵敏度不足。因此，我们设计了一个有界、平滑且灵敏的奖励函数：
```
R_stability = 
  1 - (1/(2E_0)) * E_hull,  E_hull ≤ E_0
  E_0 / (2E_hull),          E_hull ≥ E_0
```
其中我们设定E_0 = 1 eV/atom，与预训练模型输出的典型尺度相匹配。此设计有三个优点：它限定在[0,1]范围内，稳定了训练；当E_hull较小时灵敏度高 (线性斜率 -1/(2E_0))；对于大的E_hull提供平滑但衰减的梯度，防止异常值主导训练，同时仍惩罚不稳定性。

#### 指令遵循  
模型必须遵守用户指定的约束，包括目标组成和空间群。指标“组成一致性”要求生成的化学式与目标完全匹配。指标“空间群一致性”要求生成的结构属于目标空间群 (通过spglib确定) (Togo等 [2024])。在仅优化有效性的训练中，指令遵循的总奖励仅包含组成匹配，因为坐标的细微变化可能会改变空间群一致性，导致模型难以训练。
```
R_instruction = 1{组成匹配}
```

#### 范围约束奖励  
我们定义一个如下的有界密集奖励 R_range(P_generated, P_specified=[L,R]) ∈ [-1,1]。设 z = (P_generated - (L+R)/2) / (R-L)。则：
```
R_range = 
  1 - 2z²,                 if |z| ≤ 1/√2
  e^{1-2z²} - 1,           otherwise
```
该奖励在 z=0 时达到最大值1，即 P_generated = (L+R)/2 (指定范围的中心)。之所以选择中点作为唯一的最优点，是为了在区间内提供一个单一、明确的目标，避免平坦的奖励平台削弱学习信号。当 P_generated ∈ [L,R] (即 |z| ≤ 0.5) 时奖励为正，否则为负。指数尾部确保在远离范围的值处提供平滑的梯度信息。

#### 独特性、新颖性与S.U.N.  
为评估多样性和发现能力，我们采用三个指标。“独特性”是根据MatterGen的无序结构匹配器 (Zeni等 [2023]) 判定为不同的生成结构的比例。“新颖性”是通过指纹相似性匹配，不在训练集中出现的生成结构的比例。“S.U.N.”指同时满足稳定 (E_hull < 0.016 eV/atom)、独特和新颖的结构。该比率直接衡量模型发现新的可行材料的能力。

CrystalReasoner: 面向属性条件晶体结构生成的推理与强化学习

相似文章

基于深度原生结构推理的准确、跨学科且透明的结构-性质理解

LC-ERD：通过一致性规约的奖励分解挖掘潜在逻辑实现自我进化推理

CheckRLM：检索增强推理中的有效知识-思维一致性检查

学习细化隐藏状态以实现可靠的LLM推理

CoRA: 面向可靠思维链推理的置信度-理由对齐

提交意见反馈