基于自演化多智能体数字孪生的自主多相催化剂发现
摘要
本文介绍了CatDT,一个自演化多智能体数字孪生系统,能够从块体晶体和反应描述中自主预测多相催化剂性质,在七个基准测试中达到实验精度,并发现了用于丙烷脱氢的非贵金属催化剂候选物。
arXiv:2606.05050v1 公告类型:交叉
摘要:理论多相催化有望实现快速催化剂发现,然而计算和机器学习预测往往偏离实验,且局限于狭窄的材料族系,原因在于缺乏忠实且考虑条件依赖的催化模拟器。我们提出了CatDT(催化数字孪生),一个自演化多智能体系统,能够构建工作催化剂的自主数字孪生,统一气-固和液-固建模。仅凭一块块体晶体和自然语言反应描述,八个专用智能体和27个科学工具可在单GPU上5-30分钟内预测稳定晶面、重构工作表面、枚举并排序反应路径、定位过渡态以及计算动力学。两项创新解决了最困难的步骤:UniMech通过融合智能体引导提议与能量缓存图搜索,以比穷举枚举低10³倍以上的成本发现新材料的主导路径;而记忆增强的强化循环将600个催化表面的势垒计算成功率从41%提升至84%。在七个气-固基准测试中——包括阶梯金属、单原子催化剂、有序金属间化合物、富缺陷二维硫化物和碳化物,以及强金属-载体相互作用(SMSI)界面——CatDT的所有预测均落在实验值的0.5-2倍范围内,跨越四个数量级。对于丙烷脱氢,CatDT独立发现了与非贵金属候选物媲美的Pt基工业基准,其中提出的Ni@ZrO₂ SMSI覆盖层在~100%选择性下达到了1.63 s⁻¹的模拟TOF。更广泛而言,一个忠实的催化剂数字孪生——或任何多阶段科学模拟器——的决定性因素并非原始LLM能力,而是围绕它的工程化框架:确定性工具、持久记忆以及跨模型、工具和运行累积的已验证自我改进。
查看缓存全文
缓存时间: 2026/06/08 09:15
# 自主异质催化剂发现:基于自演化多智能体数字孪生 来源:https://arxiv.org/html/2606.05050 Zongmin Zhang³,Lixue Cheng¹,²,⁴ lixuecheng@ust\.hk (https://arxiv.org/html/2606.05050v1/mailto:[email protected]) ¹香港科技大学化学系,九龙,香港 999077,中国 ²香港科技大学人工智能科学发现中心,九龙,香港 999077,中国 ³香港科技大学计算机科学与工程系,九龙,香港 999077,中国 ⁴香港科技大学化学与生物工程系,九龙,香港 999077,中国 ###### 摘要 理论异质催化有望实现催化剂的快速发现,然而计算和机器学习预测常常偏离实验,并且局限于狭窄的材料家族,原因在于缺乏一个忠实且考虑工况的催化模拟器。本文提出 CatDT(催化数字孪生),一个自演化多智能体系统,它构建了工作催化剂自主、考虑工况的数字孪生,并将气固和液固建模统一在一个流程中。仅凭一个块体晶体和一个自然语言反应描述,CatDT 使用八个专业智能体和 27 个科学工具,在单 GPU 上 5–30 分钟内完成:预测稳定晶面、在操作条件下重构表面、枚举和排序反应路径、定位过渡态以及计算动力学。两项创新解决了其最困难的两个步骤。UniMech 通过融合智能体引导的提议与能量缓存图搜索,在自主构建的反应网络上,以低于穷举枚举超过 10³ 倍的成本,识别新颖材料及未被充分探索反应中的主导路径。一个记忆增强的强化循环,通过学习在跨运行中构建更好的初始态、最终态以及路径插值,将跨 600 个多样化催化表面的势垒计算成功率从 41% 提升至 84%。在七个气固基准测试(台阶金属、单原子催化剂、有序金属间化合物、富空位二维硫化物、二维碳化物以及一个强金属-载体相互作用界面)上,跨越四个数量级的测量范围内,每个 CatDT 预测值均介于实验值的 0.5 倍到 2 倍之间。对于丙烷脱氢(PDH),CatDT 独立发现了与 Pt 基工业基准相媲美的非贵金属催化剂候选,其中提出的 Ni@ZrO₂ SMSI 覆盖层在约 100% 选择性下达到 1\.63 s⁻¹ 的模拟转化频率(TOF)。更广泛地说,一个可信赖的催化剂数字孪生,或任何多阶段科学模拟器的决定性因素,并非原始 LLM 能力,而是围绕其构建的工程化“缰绳”:确定性工具、持久记忆以及经过验证的自我改进,这些要素会随着每一个新的基础模型、工具和运行而累积增强。 ## 1 引言 异质催化剂支撑着大部分工业化学 [norskov2009towards, norskov2011density],然而新的催化剂仍然通过一个数十年几乎未变的经验循环(合成、表征、动力学测试)从实验室中涌现,每个候选需要耗费数月 [zhong2020mlcatalysis]。因此,一个拥有新材料的实验者面临一个代价高昂的选择:要么重复这个试错循环,要么将材料交给理论计算,以期获得更快的指导 [norskov2009towards, ulissi2017ncomms]。计算催化所提供标准配方本身在同一时期也基本未变:选择一个低米勒指数晶面,构建一个静态平板,放置候选吸附物,推导一个手动挑选的自由能图 [norskov2011density, norskov2009towards]。然后通过火山图 [norskov2009towards] 或通过 NEB [henkelman2000neb, henkelman2000climbing]、慢生长 MD [cheng2017che] 或 Brønsted–Evans–Polanyi(BEP)和标度关系代理 [logadottir2001bep, bligaard2004bep, abild2007scaling, calle2015scaling_review] 进行精炼,来读取活性。每一步都是一个刻意的简化,但它们共同在纸上催化剂与反应器中催化剂之间留下了系统性的差距。 过去五年,机器学习(ML)几乎为这个标准配方的每一个环节提供了专门的替代方案 [zhong2020mlcatalysis]。支撑整个链条的图神经网络,如 SchNet [schutt2018schnet]、DimeNet++ [gasteiger2020dimenet]、GemNet [gasteiger2021gemnet]、MACE [batatia2022mace] 和 EquiformerV2 [liao2023equiformerv2],在 Open Catalyst 数据集 [chanussot2021oc20, tran2022oc22, shuaibi2025oc25] 上训练,能以约 6000 倍的更低成本复现约 0\.1 eV 范围内的 DFT 吸附能;而通用基础势如 UMA [uma2025] 则将这种保真度扩展到整个周期表。在此势能之上,ML 已经按照催化剂自身发展的顺序取代了链条的每一个环节。真实催化剂带来的第一个问题是暴露哪些晶面,SurFF [yin2025surff] 通过排序所有表面自由能并重构平衡 Wulff 形状,取代了任意低米勒指数选择。在操作温度、压力、电极电位和 pH 条件下,裸露表面本身不会保持解理状态,VSSR-MC [du2023vssrmc, du2025evssrmc] 通过让原子与气体或电解液储层交换,直到出现巨正则重构表面,从而打破了静态平板近似。在此重构表面上,气相物种必须找到它们的结合位点,AdsorbML [lan2023adsorbml] 和 AdsorbDiff [kolluru2024adsorbdiff] 通过通用 ML 势对多样吸附物构型进行采样,取代了高对称性的手工放置。结合的吸附物反过来驱动进一步的吸附物诱导重构,因此下游能量学反映的是耦合的表面-吸附物系统,而非孤立系统。在最终的工作表面上,反应通过相互竞争的基元步骤网络展开,基于图的反应网络生成器如 CARE [morandi2026care]、Chemoton [unsleber2022chemoton] 和深度探索框架 [zhao2022deepreaction] 取代了手动挑选的自由能图进行自动枚举。每个基元步跨越一个过渡态,CatTSunami [wander2024cattsunami] 对于热反应定位速度快 1500 倍,而 CP-MACE [wang2025cpmace] 则为带电界面提供恒电位下的过渡态能量。最后,基元势垒和中间体自由能通过微动力学求解器(如 CatMAP [medford2015catmap]——可容纳覆盖度依赖的吸附能和横向吸附物-吸附物相互作用,或势依赖的动力学蒙特卡洛 [stamatakis2022kmc])传播至宏观可观测值。 因此,每一个环节都可以单独进行机器学习。然而,两个结构性障碍仍然阻止了组装好的 ML 堆栈弥合实验与理论之间的差距。第一个是**一致性**。温度、压力、覆盖度、施加电位和局部 pH 同时影响每一个环节,因此晶面权重、表面重构、吸附物集合、过渡态和微动力学闭合只有在参照相同的操作状态时才有物理意义。上述点解决方案各自孤立地解决一个效应,如果没有一个系统在整个过程中传播工况状态,一个工具预测的表面就不会成为下一个工具输入的表面 [norskov2011density, wellendorff2012density]。第二个是**可扩展性**。真实反应网络跨越数十到数千个中间体 [ulissi2017ncomms, wen2023crn_review],而现有 CRN 生成器随化学空间呈组合性扩展,并且与网络实际遍历时的工作表面、覆盖度和电位解耦 [zhao2021crn_complexity, mou2023bridging]。在催化剂发现最迫切的新颖材料类别上,对于教科书式过渡金属表面视为理所当然的主导路径,必须针对每种材料重新发现。即使确定了候选路径,每个基元步的势垒必须通过微扰弹性带(NEB)[henkelman2000neb, henkelman2000climbing] 或慢生长分子动力学 [cheng2017che] 来定位,每种方法都需要手工构建与重构表面和局部覆盖度一致的端点几何结构。目前没有通用程序来自动构建这些端点,因此势垒计算本身成为下一个组合瓶颈,也是当前任何异质催化研究中最耗费人力的步骤。 所需的是一个数字孪生系统 [natcompscidt2025],将这些异构工具整合成一个连贯、自我改进的流程,能够在操作条件下构建真实表面、自主发现并排序竞争路径,并在没有任何人工干预的环节下交付经过验证的动力学模型。这种基础设施已在相邻领域开始成形。在化学领域,自主 LLM 智能体已迅速从演示走向部署:CoScientist 端到端地规划、执行和分析多步实验室实验 [boiko2023coscientist];ChemCrow 通过精选的专业化学工具套件增强通用 LLM,用于有机合成、逆合成和分子性质预测 [bran2024chemcrow]。Catalyst-Agent 将同一范式扩展到高通量异质催化剂筛选 [catalystagent2025],而多智能体框架如 CAMEL [li2023camel] 进一步支持专业智能体之间的角色扮演协作 [ramos2025llm_chemistry_review]。这些进展为异质催化所缺乏的编排层提供了天然基础。与此同时,它们迄今的主要焦点是溶液中的分子工作流,而异质催化建模所特有的周期性平板构建、NEB 收敛诊断和多尺度动力学耦合受到的关注较少。除了科学范围的选择,任何这类智能体能否达到科学可靠性,取决于围绕其构建的工程化表面,而非传递给模型的提示或上下文:工具调度、状态持久化、确定性验证、记忆和持续自我改进,这些共同构成了智能体“缰绳” [externalization2026harness, coding_agent_harness2026, nl_agent_harness2026]。近期实践已将长时间运行智能体的主要失败模式(上下文漂移、模式不匹配、过早终止)识别为缰绳级别而非模型级别的病理 [externalization2026harness, autoharness2026]。在化学智能体文献中,有两个缰绳级别的缺陷尤其仍未解决:前沿 LLM 在数月内就会被超越,因此任何与单一模型紧密耦合的智能体都会随之老化;当前智能体大多是无状态的,不会在一次运行到下一次运行中积累操作经验。Memento 框架 [memento2025] 指出了前进方向,通过外部化基于案例的推理,在不触及底层模型的情况下带来显著收益,从而提供了一种固有的模型无关、驻留在缰绳中的自我改进机制。 参见图注 图 1:传统催化计算向 CatDT 数字孪生的范式转变。 左图,传统催化计算在保真度和可扩展性方面受限:理论家手动构建理想化晶面,放置中间体,逐步进行反应位点选择、吸附能优化、NEB 和慢生长计算,导致表面保持静态、机理搜索手动化、每个势垒依赖专家经验;整个链条每个催化剂需要 2–30 小时。 右图,CatDT 为实验和理论科学家提供快速、真实且自主的数字孪生。一个具有基于记忆自我演化循环的智能体–工具缰绳,通过推理、工具执行、验证和跨运行记忆,提供考虑工况的表面保真度、UniMech 机理发现、强化学习优化的势垒计算以及自动动力学模拟,在单 GPU 上每个催化剂 5–30 分钟内返回带机理、自由能图、TOF 和选择性的候选结果,并在七个基准测试上与实验值相差 0\.5–2 倍。 本文介绍 CatDT(催化数字孪生),一个自演化多智能体系统,其中确定性工具、跨运行记忆和验证门围绕智能体层构成缰绳(图 1)。这个缰绳使得 LLM 能够在单一自主流程中驱动依赖于工况的表面建模、自动机理发现和自我改进的过渡态构建。八个专业智能体协调 27 个科学工具,基于 CAMEL [li2023camel] 且严格遵守智能体–工具分离原则,将链条从块体晶体和自然语言反应描述一直带到微动力学可观测值,无需任何人工干预。两项创新针对关键挑战:UniMech(智能体 M1)以低于穷举枚举 [morandi2026care] 超过 10³ 倍的成本构建反应网络并发现按能量排序的路径;一个记忆增强的强化循环将跨 600 个多样化催化表面 [chanussot2021oc20, memento2025] 的过渡态端点成功率从 41% 提升至 84%。在流程的每一步,智能体对每个结果进行推理,而不是调用工具并直接接受其输出:当 NEB 运行未收敛或端点被确定性门拒绝时,验证审计员诊断重叠、元素计数或路径碰撞原因,并提出有针对性的几何修正,用于下一次迭代。在七个气固基准测试(台阶金属、单原子催化剂、有序金属间化合物、富空位二维硫化物、二维碳化物以及一个强金属-载体相互作用的 SMSI 界面)上,每个 CatDT 预测值均介于实验值的 0\.5 倍到 2 倍之间,跨越四个数量级的测量范围。同样的反思机制驱动 CatDT 自主提出一类非贵金属丙烷脱氢催化剂,包括文献中未出现的跨族设计,与 Pt 基工业基准相媲美。智能体提出的 Ni@ZrO₂ SMSI 覆盖层在 CatMAP–KMC 下达到 1\.63 s⁻¹ 的丙烯 TOF,约 100% 选择性,约为 PtSn 工业参考值的五倍。由于智能体层与工具层解耦,CatDT 会随着基础模型和科学工具的每一次进步而成长,而不是随着其中任何一个老化。 ## 2 结果 ### 2\.1 CatDT 架构 端到端运行上述链条目前需要研究人员每个催化剂花费 6–30 小时的专业劳动,并且难以复现或扩展。CatDT 用闭环多智能体系统取代了这种串行的、人力密集型工作流,在单 GPU 上 5–30 分钟内完成相同流程,且完全可追溯、无需人工干预(图 1)。八个专业智能体在一个基于 CAMEL [li2023camel] 的系统中围绕一个原则编排:智能体推理,工具计算。因此,每个智能体仅通过调用确定性科学工具(表 LABEL:si-tab:tools_full)来行动,从不自行计算任何物理量。这种严格分离使得预测在智能体随机性的情况下依然可重复,并允许推理后端可替换。
相似文章
HADT: 一种用于自主地球观测卫星集群的异构多智能体差分Transformer
本文提出HADT,一种基于Transformer的架构,用于异构卫星集群在执行地球观测任务时的自主资源管理,采用差分注意力和关系化令牌化机制。实验表明,该方法相较于基线有显著改进,并对不同规模的卫星集群展现出强适应性和迁移能力。
HMACE:面向组合优化的异构多智能体协同进化
本文介绍了 HMACE,这是一种异构多智能体协同进化框架,利用大型语言模型(LLM)自动化设计启发式算法,以解决 NP 难组合优化问题。实验表明,在旅行商问题(TSP)和装箱问题(BPP)等任务上,该方法在质量与效率的权衡方面优于单智能体和基准多智能体方法。
ARMOR:一种基于自适应效用感知多工具推理的反应可行性预测智能体框架
本文介绍了 ARMOR,这是一个用于预测化学反应可行性的智能体框架,通过自适应地优先使用并解决多个 AI 工具之间的冲突来实现预测。在公共数据集上,该框架展示了优于单一工具和聚合方法的性能。
通过预测梯度催化剂加速多目标贝叶斯优化
本文介绍了一种通用加速机制,用于多目标贝叶斯优化,该机制利用高斯过程预测梯度作为辅助信号来增强现有的采集函数,从而在有限的评估预算下更快地收敛到全局帕累托集。
CoCoDA:用于工具增强型智能体的协同演化组合式 DAG
本文介绍了 CoCoDA,这是一个利用协同演化的组合式有向无环图(DAG)来管理增强型智能体工具库的框架。该框架使小型语言模型能够高效地检索和组合工具,从而使 8B 模型在推理基准测试上的性能能够匹敌甚至超越 32B 模型。