即兴发挥、适应、克服:一种用于高效机器学习的即时多保真度算法
摘要
本文介绍了一种用于量子化学的自适应即时多保真度机器学习算法,该算法能够自主确定不同保真度下的训练数据组成,与单保真度方法相比,数据生成成本降低高达30倍,与标准多保真度方法相比降低高达5倍。
arXiv:2606.02662v1 公告类型:新
摘要:机器学习加速了量子化学研究,但生成高保真度训练数据的成本过高成为瓶颈。多保真度机器学习(MFML)通过系统性地将丰富的低保真度数据与稀疏的高保真度数据结合,缓解了这一开销。尽管取得了成功,标准MFML方案依赖于预定义的缩放因子来确定保真度之间的稀疏数据比例,常常生成冗余的多保真度数据,导致效率降低。本文介绍了一种用于机器学习的自适应即时多保真度框架,该框架能够自主确定训练数据集的组成。通过动态查询每个保真度下的训练样本,该算法在转向更昂贵的参考计算之前,先在较低保真度下使模型精度饱和。我们在多种化学性质上对新型自适应MFML进行了基准测试,包括计算化学金标准的耦合簇能量,以及更具化学挑战性的激发能。数值实验表明,我们的自适应算法与单保真度方法相比,数据生成成本降低高达30倍,与标准MFML相比性能提升高达5倍。数据冗余的缓解为量子化学中可持续的成本感知机器学习建立了一条高精度、低成本的路径。
查看缓存全文
缓存时间: 2026/06/03 09:39
# 即兴发挥,适应变化,克服困难:一种用于高效机器学习的即时多保真算法
来源:https://arxiv.org/html/2606.02662
[1]\fnmVivin\surVinod [1]\orgdiv数学与自然科学学院,\orgname伍珀塔尔大学,\orgaddress\country德国
###### 摘要
机器学习加速了量子化学研究,但高昂的高保真训练数据生成成本阻碍了其发展。多保真机器学习(MFML)通过系统地结合丰富的低保真数据与稀疏的高保真数据来克服这一瓶颈。尽管取得了成功,但标准MFML方案依赖于预先定义的缩放因子来确定不同保真度之间的稀疏数据比例,常常生成冗余的多保真数据,导致效率损失。本文引入了一种自适应的即时多保真机器学习框架,能够自主确定训练数据集的组成。该算法通过动态查询每个保真度下的训练样本,在进入更昂贵的参考计算之前,先使较低保真度的模型精度饱和。我们将这种新型自适应MFML方法在各种化学性质上进行了基准测试,包括计算化学金标准——耦合簇能量,以及更具化学挑战性的激发能。数值实验表明,与单保真度方法相比,我们的自适应算法将数据生成成本降低了多达30倍,并且比标准MFML提高了多达5倍。数据冗余的缓解为量子化学中可持续的成本感知机器学习建立了一条高精度低成本的路径。
## 1 引言
在计算模拟中,增加成本预算通常能获得更高的精度,从而引入了相对于某个真实值的**保真度**概念 [Kennedy_2000_MF_fastapprox_copmutercodes, Gratiet_Garnier_2014]。成本与精度的权衡是多保真方法的核心,这些方法旨在通过战略性地组合不同保真度的输出来实现高精度低成本模型。这类方法通常利用数据驱动的代理模型,例如机器学习(ML)模型,来**全面修正**低保真(计算成本低)模型,使其达到高保真模型的精度水平,而运行成本远低于高保真模型本身。多保真方法已广泛应用于从地质科学到流体模拟的众多领域 [Fernandez-Godino_2023]。
机器学习的使用显著加速了量子化学(QC)研究,用准确的预测取代了昂贵的计算 [dral2020quantum, westermayr_2021_perspective]。然而,这些代理模型需要大量的训练数据,并且通常局限于训练数据本身的保真度。这个缺点直到最近才引起了一些讨论,人们越来越关注这一计算瓶颈。高精度参考数据,例如金标准——含单、双和微扰三激发的耦合簇(CCSD(T)),其计算量随系统大小按 O(N^7) 规模增长 [Crawford_CCSD_theory_2000],严重限制了高保真QC性质的ML-QC工作流程。
多保真机器学习(MFML)已成为解决训练数据成本瓶颈的一个突出方案。遵循标准多保真方法的**基本思想** [Kennedy_2000_MF_fastapprox_copmutercodes, Gratiet_Garnier_2014],通过综合修正低保真ML模型以实现高保真QC预测,已成功用于预测从基态能量到激发能及固体带隙等多种性质,显著降低了ML-QC流程的时间成本 [Ramakrishnan2015, Pilania2017, zasp19a, vinod23_MFML, Ruth_delML_CCSD_DFT, Vinod2024_multifidelity_monomers_CCSDT]。随着对可持续化学发现和减少ML在QC中计算足迹的兴趣日益增长 [sandonas2026perspectivesustainableexplorationchemical],MFML方法不仅因其预测准确性,而且因其降低计算成本的能力而越来越受欢迎 [dral2020hierarchical, vinod23_MFML, vinod2024_benchmarking_dataefficiency_deltaml]。虽然MFML方法在孤立小分子上已得到充分验证 [dral2020hierarchical, vinod2024_gamma_curve_error_contours],但它们在扩展分子系统上也显示出巨大的可扩展性潜力。最近的应用凸显了这一能力,范围从模拟合成光捕获中粘土表面85原子卟啉集合的激子能量转移 [lyu2024_porphyrin],到光合细菌光捕获复合体中超过350万个高保真激发能点预测 [vinod_2026_deltaBCL]。
尽管取得了成功,标准MFML方法在应对随保真度增加的数据稀疏性时,依赖于一个固定的缩放因子来确定两个保真度之间的训练样本比例。按照惯例,缩放因子设为2 [zasp19a, vinod23_MFML],这源于稀疏网格组合技术的传统 [Bungartz_Griebel_2004]。也有研究探索了缩放因子的其他固定值,表明较大的值能提高MFML模型的成本效益 [vinod2024_gamma_curve_error_contours, lyu2024_porphyrin]。另一种在ML-QC中使用多保真方法的途径引入了一种**启发式**方法,根据经验来规定各保真度上的训练数据集大小,从而省略了固定缩放因子 [dral2020hierarchical]。这种称为层次化ML的方案,使用了多个Δ-ML模型 [Ramakrishnan2015],并假设两个连续保真度的Δ-ML模型之间的预测比率大致保持不变。该方案被证明能有效将特定孤立小分子的训练数据成本降低100倍。在这种设置下,一个注意到的限制是,对于小训练集大小,恒定比率假设会失效,并且需要进行**事后**优化。此外,由于误差是估计的,可能需要对最终训练好的模型进行**后验**校准。最终,无论是固定缩放因子的MFML还是启发式估计的训练数据集大小,都无法在训练MFML模型时动态捕捉每个保真度的真实成本效益贡献。这不可避免地增加了生成昂贵训练数据的冗余风险,需要手动事后干预。
随着成本感知ML在QC中逐渐获得关注,迫切需要开发稳健的自适应方案,用于动态选择每个保真度的最佳训练样本数量。这样的算法不仅能最小化昂贵的训练数据生成,还依赖于对参考QC性质的即时计算。与需要所有保真度上先验数据集的传统MFML方法不同,真正的自适应采样方案仅在必要之时查询QC参考计算,通过仅生成改善模型所需的数据来消除ML-QC流程中的冗余。
本工作引入了一种新颖的自适应MFML方案,该方案在每个保真度上对训练数据进行即时采样,以最小化所得MFML模型的经验误差。通过递归地添加每个保真度上的训练样本,算法确保误差降低满足用户定义的阈值。我们将在下一节证明,这种新的自适应算法将ML-QC方法的计算成本相比单保真度方法降低了几个数量级,并且在某些情况下比基本MFML基线提高了5倍。该算法被证明是稳健的,并能减少冗余。通过预测从**从头算**势能面(PES)到更复杂的激发能等不同性质,展示了所提出的自适应MFML框架在多种QC性质上的广泛适用性。
## 2 结果
的容差检查确保防止冗余训练数据生成。")
自适应MFML模型采样框架的概念工作流程如图1所示。多保真训练数据集使用少量随机采样的几何结构及其在不同保真度下计算的相应QC性质进行初始化。在本文展示的所有实验中,我们定义了四个离散保真度:f ∈ {1,2,3,4},初始数据集大小为 N_train = [32, 16, 8, 4],即保真度1有32个训练样本,保真度2有16个,以此类推。这反映了一个小的基本MFML架构。该算法本身运行在一个嵌套循环结构中。在本地循环(以下也称为一个时期)中,算法从最低保真度开始动态添加训练数据。每个时期,针对相应的训练数据集组成训练一个MFML模型,并针对少量高保真参考计算的小型验证集进行评估,以跟踪预测误差(计算为平均绝对误差MAE;参见第4.3节)。为避免因数据集过小而产生的预渐近伪影,MFML模型的改进是通过MAE的移动平均值来评估的。如果改进低于预定义的**局部容差**,算法将前进到下一个保真度,进行即时训练数据查询。该算法允许为每个保真度设置单独的局部容差值,这可以源于领域专业知识,了解该保真度预期会有多少改进。例如,合理地说,添加一个具有高保真参考计算的几何结构,应该比添加相同几何结构但只有低保真参考能提供更好的预测精度。
这种逐级递进保真度的过程一直持续到达到最高保真度,从而完成一个**全局循环**。完成一个全局循环后,算法会检查从最低到最高保真度整个过程中的整体误差降低情况。如果误差相比于上一次循环有所改善,则序列从最低保真度重新开始。如果改善低于设定的**全局容差**阈值,则算法终止,返回自适应采样的多保真训练数据集和最终训练好的模型。这种对冗余参考计算查询的激进剪枝,以及严格按需增长数据集的方式,使得自适应框架能够避免先验生成昂贵的数据,直接解决ML-QC流程中的成本预算瓶颈。
为了确立新颖自适应采样方法的效能,我们使用保留测试集(在训练和算法循环中均未见过)来评估MAE。这确保了误差反映真正的泛化能力。验证集误差(用于指导自适应算法中的采样)与保留测试集误差的比较见补充信息SF3,表明验证集误差确实与测试集误差匹配,说明该算法对于泛化而言确实是稳健的。本工作中使用的核心ML架构是核岭回归(KRR),其动机在于它在多保真QC应用中已被证实的稳健性 [zasp19a, dral2020hierarchical, vinod2024_gamma_curve_error_contours]。
对于每个实验,所有几何结构按训练集:验证集:测试集 = 85:5:10 的比例进行划分。我们通过仅在时期中请求时才查询预先计算的QC参考值,来模拟自适应MFML算法的即时特性。自适应MFML方法与两个基线进行基准比较:仅使用最高保真度数据训练的单保真度KRR模型,以及使用传统固定缩放因子2(即 N_train^{f-1} = 2 · N_train^f)来控制数据稀疏性的标准MFML模型。我们采用10折交叉验证来评估所有三种方法的保留测试集预测误差。对于MFML方法,交叉验证遵循参考文献 [vinod_2024_oMFML] 中概述的嵌套数据结构要求(见第4.1节)。我们分析每个模型的MAE与训练数据生成产生的累积时间成本(见第4.3节)之间的关系。对于单保真度模型,成本是每个样本的最高保真度成本乘以训练集大小。对于MFML模型,成本是所有查询保真度上的成本之和。对这些时间成本学习曲线的评估提供了数据效率的直接度量,使其成为理解QC中成本感知ML模型计算足迹的关键指标。
### 2.1 耦合簇势能面
级别从头算势能面预测,训练数据时间成本与MAE的关系。自适应MFML模型在达到目标MAE时,其计算成本显著低于标准MFML和单保真度KRR。")
VIB5数据集提供了CH3Cl和CH3F分子的高精度从头算势能面(PES)[zhang_vib5_2022]。对于每个分子,我们考虑四个保真度级别,按计算成本递增顺序列出:HF/cc-pVTZ, HF/cc-pVQZ, MP2/cc-pVTZ, 和 CCSD(T)/cc-pVQZ(详细信息见补充信息S3)。图2展示了三种不同方法(单保真度KRR、标准MFML和自适应MFML)的MAE随训练数据生成时间成本的变化。对于自适应MFML,我们报告了平均学习曲线以及独立运行的轨迹。
考虑图2左侧CH3Cl的曲线。水平和垂直虚线表示达到约2 kcal/mol目标MAE所需的时间成本。要达到此精度,单保真度KRR需要约45,000小时的计算预算,而标准MFML模型需要约7,500小时。值得注意的是,自适应MFML仅用约1,500小时就达到了目标误差。这意味着相比单保真度KRR提高了30倍,相比标准MFML方法降低了5倍的时间成本。对于CH3F也观察到了类似的效率提升,表明该算法性能稳健。对于这两个分子,在独立实例化中,自适应MFML均表现出一致的趋势。每个时期都系统性地降低了MAE,并且各次运行都收敛到平均曲线上。
### 2.2 基态和垂直激发能
随训练数据生成时间成本的变化。对于固定的时间成本预算,自适应MFML被认为是最有益的,其达到最低的...")相似文章
在量子退火器上通过基于QUBO的客户端选择的拜占庭鲁棒联邦学习
本文提出了一种量子退火方法,将联邦学习中的客户端选择重新表述为QUBO问题以防御拜占庭攻击。实验表明,在复杂攻击上,该方法相比经典MultiKrum具有更高的检测准确性,尤其是与MultiSignal集成结合时。
始终学习,始终混合:高效简单的全时数据混合
本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。
测量AI的忠实度——无论好坏
本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。
M$^2$FedAQI: 用于异构边缘设备空气质量预测的多模态联邦学习
提出了M²FedAQI,一种轻量级多模态联邦学习框架,用于跨异构边缘设备的空气质量预测,在基准数据集上相比基线取得了显著改进。
QUIVER:量子信息视图增强大型机器学习模型的表示
本文介绍了QUIVER,一种通过从量子费舍信息矩阵中提取的量子启发特征来丰富经典机器学习模型的范式,并在分子属性预测和喷注味分类基准上展示了改进效果。