交换关联泛函的导数信息学习

arXiv cs.LG 2026/06/04 04:00 论文

摘要

这篇ICML 2026论文介绍了Derivative Informed XC-Loss（DI-Loss），这是一种用于机器学习交换关联泛函的训练方法，它在密度矩阵的格拉斯曼流形上引入了一阶和二阶导数监督。在四种架构上，与仅使用能量和密度监督相比，DI-Loss将总能量平均绝对误差（MAE）降低了66%，并改善了TDDFT计算中的激发态预测。

arXiv:2606.04279v1 公告类型：新提交 \n摘要：机器学习（ML）交换关联（XC）泛函旨在通过直接从参考数据中学习来替代人工设计的密度泛函近似，但它们仍然无法持续超越传统的$\mathcal{O}(N^4)$标度混合泛函。我们研究了一种混合蒸馏设置，其中训练$\mathcal{O}(N^3)$标度的ML-XC泛函以重现B3LYP/def2-SVP目标。我们引入了Derivative Informed XC-Loss（DI-Loss），这是一种损失函数，通过在容许密度矩阵的格拉斯曼流形上监督能量的一阶和二阶导数，从参考混合泛函中融入额外信息。DI-Loss不仅匹配自洽不动点，还将学习到的泛函的局部一阶和二阶响应与目标泛函对齐。在四种评估架构上，DI-Loss持续改善了主要能量指标。在各架构上均匀平均，总能量平均绝对误差（MAE）相对于仅使用能量和密度监督降低了66%。密度敏感的均场能量指标$E_\rho$平均从1.2 mEh改善到0.8 mEh，而偶极矩和$\mathcal{L}_2$密度误差并未均匀改善。我们进一步表明，来自蒸馏泛函的密度将混合泛函自洽场（SCF）迭代次数减少了高达50%。在下游的TDDFT计算中，Hessian监督改善了激发态预测，XCdiff将平均激发能MAE降低了19%至35%。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:24

# 1 引言 来源：https://arxiv.org/html/2606.04279 marginparsep 已被更改。topmargin 已被更改。marginparpush 已被更改。页面布局违反了 ICML 风格。请不要更改页面布局，或包含像 geometry、savetrees 或 fullpage 这样会为您更改布局的包。我们无法可靠地撤消对样式的任意更改。请移除违规的包或布局更改命令，然后重试。  
交换相关泛函的导数知情学习  
Eike S. Eberhard¹²³, Luca A. Thiede⁴⁵, Abdul Aldossary⁴, Andreas Burger⁴⁵, Nicholas Gao⁶, Vignesh Bhethanabotla⁷, Alán Aspuru-Guzik⁴⁵, Stephan Günnemann¹²³  
††footnotetext:¹慕尼黑工业大学，德国慕尼黑；²慕尼黑数据科学研究所，德国慕尼黑；³慕尼黑机器学习中心，德国慕尼黑；⁴多伦多大学，加拿大多伦多；⁵向量研究所，加拿大多伦多；⁶CuspAI，德国柏林；⁷加州理工学院，美国帕萨迪纳。通讯作者：Eike S. Eberhard 。  
第43届国际机器学习会议论文集，韩国首尔。PMLR 306, 2026。版权2026归作者所有。  

###### 摘要  
机器学习（ML）的XC泛函旨在通过学习参考数据来替代人类设计的密度泛函近似，但它们仍未能持续超越传统O(N⁴)标度的混合泛函。因此，我们研究了一种混合蒸馏设置，其中O(N³)标度的ML-XC泛函被训练来重现B3LYP/def2-SVP目标。我们引入了导数知情XC损失（DI-Loss），该损失通过监督可容许密度矩阵格拉斯曼流形上能量的一阶和二阶导数，融合了参考混合泛函的额外信息。DI-Loss不仅匹配自洽不动点，还将学习到的泛函的局部一阶和二阶响应与目标泛函对齐。在四种评估架构中，DI-Loss持续改善了主要能量指标。均匀地跨架构平均后，总能量的MAE相对于仅监督能量和密度降低了66%。对密度敏感的均场能量指标Eρ从平均1.2 mEh改善到0.8 mEh，而偶极子和L₂密度误差并未均匀改善。我们进一步表明，来自蒸馏泛函的密度可将混合泛函SCF迭代次数减少高达50%。在下游TDDFT计算中，Hessian监督改善了激发态预测，XCdiff将平均激发能MAE降低了19–35%。  

准确高效地预测分子和材料性质是现代计算化学的核心。这些预测使得在从催化剂设计、能量存储到药物发现等广泛领域中合理设计分子和材料成为可能（Sliwoski et al., 2014 (https://arxiv.org/html/2606.04279#bib.bib6); Lu, 2021 (https://arxiv.org/html/2606.04279#bib.bib7); Aldossary et al., 2024 (https://arxiv.org/html/2606.04279#bib.bib8); Rowaiye et al., 2025 (https://arxiv.org/html/2606.04279#bib.bib9)）。该领域的一个基本挑战是预测准确性与计算可扩展性之间的权衡。原则上，大部分化学现象可由薛定谔方程描述，该方程存在精确解（Knowles and Handy, 1984 (https://arxiv.org/html/2606.04279#bib.bib210)）。然而，其随系统大小的阶乘级标度使其在极小系统之外不可行。高度精确的近似如耦合簇理论（Purvis III and Bartlett, 1982 (https://arxiv.org/html/2606.04279#bib.bib211); Raghavachari et al., 1989 (https://arxiv.org/html/2606.04279#bib.bib212)）降低了这一成本，但仍随系统大小迅速增长，通常CCSD为O(N⁶)，CCSD(T)为O(N⁷)。  

密度泛函理论（DFT）通过在准确性与成本之间提供有利的折中，在电子结构理论中占据核心地位。密度泛函理论（DFT）基于Hohenberg-Kohn（HK）定理（Hohenberg and Kohn, 1964 (https://arxiv.org/html/2606.04279#bib.bib80)），该定理将相互作用的多电子系统的描述从3N维波函数简化为三维电子密度ρ(r): ℝ³ → [0, ∞)。第一个定理建立了由原子核产生的外势v_ext(r)与基态密度ρ₀(r)之间的一一对应关系。第二个定理保证了能量泛函E[ρ]的存在性，其最小化给出基态密度作为最小化器，基态能量作为最小值。唯一的系统特定输入是核势v_ext(r)，而其余贡献构成所有电子系统共享的普适泛函。虽然HK定理保证了E[ρ]的存在性，但并未说明其形式，因此其参数化成为DFT的核心挑战。  

Kohn和Sham（Kohn and Sham, 1965 (https://arxiv.org/html/2606.04279#bib.bib104)）提出将相互作用系统映射到一个虚构的非相互作用参考系统，该系统具有相同的基态密度ρ*，其动能T_s可通过*单粒子轨道* φ_i: ℝ³ → ℝ精确评估。在此设定下，总能量泛函可分解为：  
E[ρ] = E_nuc + T_s[ρ] + V_ext[ρ] + E_C[ρ] + E_xc[ρ], (1)  
其中核排斥能E_nuc、外势能V_ext[ρ] = ∫ v_ext(r) ρ(r) dr和库仑（哈特里）能E_C精确已知，而经典静电学之外的所有多体效应以及剩余动能贡献T[ρ] - T_s[ρ]都被吸收到未知的交换相关（XC）泛函E_xc中。密度本身通过轨道重建：ρ(r) = ∑_i |φ_i(r)|²，轨道通过求解Kohn-Sham方程获得：  
{h_core(r) + v_C[ρ](r) + v_xc[ρ](r)} φ_i = ε_i φ_i, (2)  
并满足正交归一化约束∫ φ_i(r) φ_j(r) dr = δ_ij。KS-DFT保持了有利的计算标度，使其成为现代电子结构计算的主力。KS-DFT的准确性几乎完全取决于未知XC泛函近似的好坏：  
E_xc: {ρ: ℝ³ → ℝ⁺ | ∫ ρ(r) dr = N_elec} → ℝ, (3)  
该泛函将电子密度映射为一个标量能量贡献。  

最近的努力试图绕过传统的人为设计的密度泛函近似（DFA），通过直接从高精度参考数据学习XC泛函（Snyder et al., 2012 (https://arxiv.org/html/2606.04279#bib.bib161); Nagai et al., 2020 (https://arxiv.org/html/2606.04279#bib.bib135); Dick and Fernandez-Serra, 2021 (https://arxiv.org/html/2606.04279#bib.bib51); Gao et al., 2024 (https://arxiv.org/html/2606.04279#bib.bib67)），训练泛函重现从耦合簇等参考计算获得的基态密度和能量。尽管有希望，这些ML驱动的泛函通常在能量基准上与传统O(N⁴)标度的混合泛函竞争，但并未持续超越（Luise et al., 2025 (https://arxiv.org/html/2606.04279#bib.bib125); Karton, 2026 (https://arxiv.org/html/2606.04279#bib.bib3)）。  

在这项工作中，我们针对精度-效率差距，将传统的O(N⁴)标度XC泛函*蒸馏*到成本更低的O(N³)标度ML XC泛函中。这种方法的好处是可以访问参考泛函在基态附近的额外信息，而这些信息无法从昂贵的从头算参考计算中获得。与先前工作仅监督能量和密度不同，我们额外监督能量相对于密度的一阶和二阶泛函导数，使蒸馏泛函的自洽场（SCF）动力学与目标泛函一致。这些额外的损失项使蒸馏物能够更忠实地重现基态能量，改善分布外泛化能力，以及与激发态计算相关的响应性质。虽然在这项工作中我们仅限于蒸馏O(N⁴)标度的泛函，但该方法可扩展到更准确的泛函，如双杂化（Grimme, 2006 (https://arxiv.org/html/2606.04279#bib.bib217)）。  

## 2 背景  
KS-DFT的离散化利用有限基组{χ_μ: ℝ³ → ℝ}_{μ=1}^B在B维空间中求解方程2（Lehtola et al., 2020 (https://arxiv.org/html/2606.04279#bib.bib114)）。在此离散化中，本征函数集合φ(r) = (φ₁, ..., φ_B)^T可以用轨道系数矩阵表示：  
φ(r) = C^T χ(r)。 (4)  
值得注意的是，只有前O = N_elec/2个轨道被电子*占据*，剩余的V = B - O通常称为*虚轨道*。¹¹我们在此限于典型的稳定有机化学中的限制/闭壳层系统，它们具有偶数个电子。我们将常见的切片C_{:,:O}和C_{:,O:}分别记为C_occ和C_virt。电子密度可写为ρ = χ C_occ C_occ^T χ，因此方便定义密度矩阵P = C_occ C_occ^T。从某个ρ^(t)出发，可将其代回方程2，通过填充最低能量的轨道至N_elec/2获得新的一组轨道，构造对应于ρ^(t+1)的新C_occ^(t+1)。重复此过程直至自洽，即ρ^(t) = ρ^(t+1)，得到基态密度ρ_gs。  

从我们定义P的方式可以看出，并非任何ℝ^{B×B}中的矩阵都是有效的密度矩阵。有趣的是，这些条件隐式定义了格拉斯曼流形O_basis/(O_occ × O_virt)，其维数为O×V，其中O_basis是基组大小的正交群（Edelman et al., 1998 (https://arxiv.org/html/2606.04279#bib.bib5)）。该流形可以被理解为占据轨道O的投影矩阵空间，对O或V内的酉旋转不变。从流形上的有效系数矩阵C₀出发，所有其他有效的C矩阵可通过下式参数化：  
C(θ_ov) := C₀ exp(   0    θ_ov; -θ_ov^T    0  ), (5)  
其中θ_ov ∈ ℝ^{O×V}是所谓的*轨道旋转角*。有关更多细节和推导，请参考附录A (https://arxiv.org/html/2606.04279#A1)。  

传统的XC泛函近似历史上被参数化为E_xc = ∫ ε_xc[ρ](r) ρ(r) dr，模拟一个依赖于电子密度局部性质的*强度*能量密度ε_xc（附录E (https://arxiv.org/html/2606.04279#A5)）。除了仅基于ρ的局域密度近似（LDA）外，广义梯度近似（GGA）增加了对密度梯度∇ρ的依赖，而meta-GGA进一步包含动能密度τ，所有这些都保持O(N³)标度。通过包含来自哈特里-福克理论的精确交换可以达到更高的精度，这体现在（范围分离的）混合泛函中（Becke, 1993 (https://arxiv.org/html/2606.04279#bib.bib215); Yanai et al., 2004 (https://arxiv.org/html/2606.04279#bib.bib216)）。双杂化（Grimme, 2006 (https://arxiv.org/html/2606.04279#bib.bib217)）以更高的代价添加了微扰相关修正。然而，这种提高的精度带来了高昂的计算成本：混合和范围分离的混合泛函标度为O(N⁴)，而双杂化标度为O(N⁵)。因此，最准确的基于KS-DFT的方法牺牲了最初推动其发展的有利标度。  

含时密度泛函理论（TDDFT）是计算分子系统激发态性质最广泛使用的方法。它在形式上基于Runge-Gross定理（Runge and Gross, 1984 (https://arxiv.org/html/2606.04279#bib.bib222)），即Hohenberg-Kohn定理的含时类比，该定理建立了含时外势与含时电子密度之间的一一对应关系。直观地说，一个随时间变化的电场，如振荡的光波，会扰动基态密度并诱导密度响应。如果场频率ω与系统的自然跃迁频率匹配，该响应变成奇点（一个“极点”），这些极点出现的频率对应于分子的激发能。在线性响应TDDFT中，计算这些极点简化为一个广义本征值问题，其中心算符是轨道Hessian（Gross and Maitra, 2012 (https://arxiv.org/html/2606.04279#bib.bib75)）。它的XC贡献正是E_xc相对于密度的二阶泛函导数。因此，TDDFT激发可以探测ML泛函在基态附近重现参考泛函曲率的程度。

交换关联泛函的导数信息学习

相似文章

基于深度学习的精确可扩展交换关联泛函

代理式发现交换相关密度泛函

作为隐式神经表示的无网格高频辅助损失的水平穿越密度

DEL：大型语言模型数值学习的数字熵损失

用于全波形反演的扩散模型解耦潜在优化

提交意见反馈