Mamba辅助的非马尔可夫闭合用于降阶建模

arXiv cs.LG 2026/06/05 04:00 论文

摘要

提出了Mamba辅助闭合（MAC）框架，这是一种基于Mamba的序列模型，用于高维动力系统降阶建模中的非马尔可夫闭合，在Burgers方程和Lorenz '96系统上优于基于GRU和马尔可夫的方法。

arXiv:2606.05371v1 公告类型：新的摘要：高维动力系统的降阶建模常常受到非马尔可夫闭合项的阻碍，该闭合项表示未解析变量对已解析动力学的影响。受Mori-Zwanzig形式论的启发，其中闭合项采用已解析轨迹的记忆泛函形式，我们将闭合建模重新表述为序列建模问题，并提出了Mamba辅助闭合（MAC）框架：一种基于Mamba的序列模型，训练用于从已解析轨迹预测闭合项，通过数值积分器与降阶控制方程耦合，以随时间推进已解析变量。该框架的一个关键特性是利用状态空间模型的双重表示——模型通过卷积形式以序列到序列的方式进行训练，并通过循环形式进行逐步自回归展开，从而实现了高效的长轨迹训练和恒定的每步推理成本。在粘性Burgers方程和混沌双尺度Lorenz '96系统上，MAC模型在预测精度和长时间展开稳定性方面显著优于马尔可夫降阶模型、基于GRU的序列模型和Wilks方法。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:10

# Mamba辅助的非马尔可夫闭包用于降阶建模
当前版本：\DTMenglishmonthname 3, 2026. 使用和XELaTeX排版。来源：https://arxiv.org/html/2606.05371 \[ BoldFont = lmroman10\-bold\.otf, ItalicFont = lmroman10\-italic\.otf, BoldItalicFont = lmroman10\-bolditalic\.otf, SmallCapsFont = lmromancaps10\-regular\.otf, SmallCapsFeatures = ItalicFont = lmromancaps10\-oblique\.otf \]\\setCJKfamilyfontzhfsFandolFang\-Regular\.otf\\NewBibliographyStringkeyword,keywords\\NewBibliographyStringartno Zhi\-Feng Wei邮箱：zfwei@pnnl\.gov (https://arxiv.org/html/2606.05371v1/mailto:[email protected])\.Advanced Computing, Mathematics, and Data Division,Pacific Northwest National Laboratory, Richland, WA 99354, USASaad Qadeer邮箱：saad\.qadeer@pnnl\.gov (https://arxiv.org/html/2606.05371v1/mailto:[email protected])\.Advanced Computing, Mathematics, and Data Division,Pacific Northwest National Laboratory, Richland, WA 99354, USAPanos Stinis邮箱：panagiotis\.stinis@pnnl\.gov (https://arxiv.org/html/2606.05371v1/mailto:[email protected])\.Advanced Computing, Mathematics, and Data Division,Pacific Northwest National Laboratory, Richland, WA 99354, USADepartment of Applied Mathematics, University of Washington, Seattle, WA 98195, USADivision of Applied Mathematics, Brown University, Providence, RI 02912, USA ###### 摘要 高维动力系统的降阶建模常常受到非马尔可夫闭包项的阻碍，该闭包项代表了未解析变量对解析动力学的影响。受Mori–Zwanzig形式的启发（其中闭包表现为解析轨迹的记忆函数），我们将闭包建模重新表述为序列建模问题，并提出了Mamba辅助闭包（MAC）框架：一个基于Mamba的序列模型，经过训练以从解析轨迹预测闭包，通过数值积分器与降阶控制方程耦合，从而随时间推进解析变量。该框架的一个关键特征是它利用了状态空间模型的双重表示——模型通过卷积形式以序列到序列的方式训练，并通过循环形式逐步自回归部署，从而实现高效的长轨迹训练和恒定的每步推理成本。在粘性Burgers方程和混沌两尺度Lorenz ’96系统上，MAC模型在预测精度和长时间滚动稳定性方面显著优于马尔可夫降阶模型、基于GRU的序列模型和Wilks方法。关键词：降阶建模，非马尔可夫闭包，Mori–Zwanzig形式，选择性状态空间模型（Mamba），序列到序列学习 ###### 目录 1. 1引言 (https://arxiv.org/html/2606.05371#S1) 2. 2技术方法 (https://arxiv.org/html/2606.05371#S2)1. 2\.1降阶建模与记忆效应 (https://arxiv.org/html/2606.05371#S2.SS1) 2. 2\.2Mamba用于非马尔可夫闭包建模 (https://arxiv.org/html/2606.05371#S2.SS2) 3. 2\.3训练与推理框架 (https://arxiv.org/html/2606.05371#S2.SS3) 3. 3数值结果 (https://arxiv.org/html/2606.05371#S3)1. 3\.1粘性Burgers方程 (https://arxiv.org/html/2606.05371#S3.SS1) 2. 3\.2两尺度Lorenz ’96系统 (https://arxiv.org/html/2606.05371#S3.SS2) 4. 4结论 (https://arxiv.org/html/2606.05371#S4) 5. 代码与数据可用性 (https://arxiv.org/html/2606.05371#Sx1) 6. 致谢 (https://arxiv.org/html/2606.05371#Sx2) 7. A附加闭包项结果 (https://arxiv.org/html/2606.05371#A1)1. A\.1Burgers方程 (https://arxiv.org/html/2606.05371#A1.SS1) 2. A\.2Lorenz ’96系统 (https://arxiv.org/html/2606.05371#A1.SS2) 8. B实现细节 (https://arxiv.org/html/2606.05371#A2)1. B\.1数据生成 (https://arxiv.org/html/2606.05371#A2.SS1) 2. B\.2神经网络架构 (https://arxiv.org/html/2606.05371#A2.SS2) 3. B\.3模型与训练超参数 (https://arxiv.org/html/2606.05371#A2.SS3) 4. B\.4数据归一化 (https://arxiv.org/html/2606.05371#A2.SS4) 5. B\.5噪声注入 (https://arxiv.org/html/2606.05371#A2.SS5) 6. B\.6训练损失选择 (https://arxiv.org/html/2606.05371#A2.SS6) 7. B\.7推理中的预热 (https://arxiv.org/html/2606.05371#A2.SS7) 8. B\.8带有零阶保持的RK4时间步进 (https://arxiv.org/html/2606.05371#A2.SS8) 9. C符号与记法 (https://arxiv.org/html/2606.05371#A3) 10. 参考文献 (https://arxiv.org/html/2606.05371#Sx1a) 11. 参考文献 (https://arxiv.org/html/2606.05371#bib) ## 1引言 许多科学与工程关注的物理系统，如湍流、气候动力学、计算生物学和材料科学，受高维非线性动力学支配，这些动力学跨越广泛的空间和时间尺度\[undef (https://arxiv.org/html/2606.05371#bib.bibx1),undeff (https://arxiv.org/html/2606.05371#bib.bibx7),undefj (https://arxiv.org/html/2606.05371#bib.bibx11),undefz (https://arxiv.org/html/2606.05371#bib.bibx27),undefab (https://arxiv.org/html/2606.05371#bib.bibx29)\]。以全分辨率直接数值模拟这些系统仍然过于昂贵，这促使了降阶模型（ROM）的发展，这些模型仅以降低的成本演化解析变量的子集\[undefy (https://arxiv.org/html/2606.05371#bib.bibx26)\]。然而，解析变量的演化通常不是封闭的：未解析尺度的影响通过闭包项反馈到解析动力学上，其精确建模是降阶建模的一个核心挑战\[undefaf (https://arxiv.org/html/2606.05371#bib.bibx33),undefg (https://arxiv.org/html/2606.05371#bib.bibx8),undefh (https://arxiv.org/html/2606.05371#bib.bibx9)\]。Mori–Zwanzig（MZ）形式为描述闭包项提供了原则性的特征\[undefu (https://arxiv.org/html/2606.05371#bib.bibx22),undefai (https://arxiv.org/html/2606.05371#bib.bibx36),undefe (https://arxiv.org/html/2606.05371#bib.bibx6)\]。通过将完整动力学投影到解析子空间上，该形式表明闭包不仅由瞬时解析状态决定，而是其整个时间历史的函数——这是非马尔可夫动力学的一个定义性特征\[undefv (https://arxiv.org/html/2606.05371#bib.bibx23)\]。从物理上讲，从解析尺度传递到未解析尺度的信息不会瞬时丢失，而是部分保留并在之后反馈到解析动力学中。完整的Mori–Zwanzig分解将闭包表示为记忆项（捕捉这种历史依赖性）和正交波动项（由未解析子空间内部动力学产生）之和。在这两项中，记忆项完全由解析变量的历史决定，因此是降阶框架内建模的自然目标。在线性情况下，记忆项简化为解析轨迹与记忆核之间的卷积。尽管概念上清晰，Mori–Zwanzig表示在实践中很少可计算：显式估计记忆核并在每个步骤评估相关卷积积分对于高维系统和长时间滚动来说计算上过于昂贵\[undefah (https://arxiv.org/html/2606.05371#bib.bibx35)\]。这激发了数据驱动的替代方案：直接从轨迹数据学习闭包对解析历史的非马尔可夫依赖性，从而将闭包建模重新表述为序列建模问题\[undefn (https://arxiv.org/html/2606.05371#bib.bibx15),undefs (https://arxiv.org/html/2606.05371#bib.bibx20)\]。在这个序列建模视角下，现有的数据驱动方法主要在如何——以及是否——表示闭包对时间历史的依赖性上有所不同。一条工作线将神经网络与数值求解器耦合，并通过在多个步骤上展开耦合系统进行训练，使得网络针对自身的滚动轨迹进行优化\[undefaa (https://arxiv.org/html/2606.05371#bib.bibx28),undefq (https://arxiv.org/html/2606.05371#bib.bibx18)\]。这里，时间一致性是通过训练过程而不是通过对过去解析状态的显式记忆来促进的。为了显式捕捉非马尔可夫记忆效应，第二条工作线将解析变量的时间历史纳入闭包。最简单的方法是使用固定长度的过去解析状态窗口作为输入\[undefc (https://arxiv.org/html/2606.05371#bib.bibx4)\]，这使降阶动力学变为延时系统，但需要预先指定记忆深度。一个更灵活的替代方案是使用循环神经网络，如LSTM，它们将历史编码在一个演化的隐藏状态中，并已用于表示降阶模型中的闭包和记忆项\[undefad (https://arxiv.org/html/2606.05371#bib.bibx31),undeft (https://arxiv.org/html/2606.05371#bib.bibx21)\]。最近，一个基于LSTM的记忆模型已与可微物理求解器耦合，以学习粗粒化流体输运的非马尔可夫闭包\[undefag (https://arxiv.org/html/2606.05371#bib.bibx34)\]。然而，循环架构已知由于梯度消失而难以处理长程时间依赖性\[undefb (https://arxiv.org/html/2606.05371#bib.bibx3),undefw (https://arxiv.org/html/2606.05371#bib.bibx24)\]，这限制了它们能够可靠捕捉的有效记忆。在这些方法中，捕捉非马尔可夫记忆——同时从数据中推断相关记忆深度而不是预设，并保留长轨迹的高效训练和低成本推理——仍然是一个开放挑战。状态空间模型为解决这一挑战提供了自然的架构候选。结构化SSM的输出等于其输入与可学习核的离散卷积，这建立了与Mori–Zwanzig记忆积分的直接结构对应关系\[undefm (https://arxiv.org/html/2606.05371#bib.bibx14),undefl (https://arxiv.org/html/2606.05371#bib.bibx13)\]。Mamba通过输入依赖的状态空间矩阵扩展了结构化SSM，其选择性机制允许模型根据当前输入动态决定保留或丢弃哪些时间信息\[undefk (https://arxiv.org/html/2606.05371#bib.bibx12)\]。另一个优势在于状态空间模型的双重表示：SSM既具有卷积形式（允许在长序列上进行并行计算），也具有循环形式（以恒定的每步成本逐步推进）——这与Transformer架构形成对比，后者的计算成本随序列长度二次增长\[undefac (https://arxiv.org/html/2606.05371#bib.bibx30)\]。SSM已在科学机器学习环境中展现出强劲性能——包括PDE算子学习\[undefo (https://arxiv.org/html/2606.05371#bib.bibx16)\]和动力系统建模\[undefp (https://arxiv.org/html/2606.05371#bib.bibx17)\]——这为它们应用于闭包建模问题提供了额外动力。在这项工作中，我们提出了Mamba辅助闭包（MAC）框架，将非马尔可夫闭包建模重新表述为序列建模问题。受SSM卷积与Mori–Zwanzig记忆积分之间结构对应关系的启发，我们使用基于Mamba的序列模型来建模历史依赖的闭包，该模型经过训练从解析轨迹预测闭包，并通过数值积分器与降阶控制方程耦合，从而随时间推进解析变量。Mamba的选择性机制允许从解析轨迹本身推断有效记忆深度，无需预设固定的历史窗口。该框架利用了状态空间模型的双重表示：闭包模型通过卷积形式以序列到序列的方式训练，从而在长训练轨迹上实现线性时间规模的并行计算，并通过循环形式逐步部署，在自回归滚动期间保持恒定的每步推理成本。我们在两个具有互补特性的基准系统上验证了MAC框架——傅里叶空间中的粘性Burgers方程和混沌两尺度Lorenz ’96系统——它在这两个系统上在预测精度和长时间滚动稳定性方面显著优于马尔可夫降阶模型、基于GRU的序列模型和Wilks方法。本文的其余部分组织如下。第2节介绍了降阶建模公式、相关的记忆效应以及MAC框架。第3节报告了粘性Burgers方程和两尺度Lorenz ’96系统的数值实验。第4节总结论文并讨论未来工作方向。附录A报告了额外的闭包项结果，附录B给出了实现细节，最后一个附录总结了符号。 ## 2技术方法 在本节中，我们描述用于降阶模型中闭包建模的技术框架。我们首先介绍降阶建模公式以及由未解析变量引起的相关记忆效应。我们还讨论了为什么基于Mamba的架构非常适合处理具有记忆效应的闭包建模。然后，我们介绍训练和推理框架，其中序列模型用于建模闭包项，并与降阶控制方程耦合，以随时间推进解析变量并预测其时间演化。 ### 2\.1降阶建模与记忆效应 许多高维动力系统允许有效的低维描述，尽管完整系统具有大量自由度，但其基本动力学在低维子空间上演化。这一观察促使了降阶模型（ROM）的构建，这些模型仅演化完整状态变量的子集，同时旨在忠实地再现感兴趣的动力学\[undefy (https://arxiv.org/html/2606.05371#bib.bibx26)\]。为了形式化这一想法，考虑一个一般动力系统 dφdt=R\(φ\),\\frac\{\\mathrm\{d\}\{\\varphi\}\}\{\\mathrm\{d\}\{t\}\}=R\(\\varphi\),\(1\)其中φ\\varphidenotes the vector of full state variables\. In reduced\-order modeling, we decomposeφ\\varphiinto resolved and unresolved components, φ=\(φ^,φ~\),\\varphi=\(\\widehat\{\\varphi\},\\widetilde\{\\varphi\}\),whereφ^\\widehat\{\\varphi\}collects the variables retained in the ROM andφ~\\widetilde\{\\varphi\}collects the degrees of freedom excluded from the reduced\-order representation\. A naive truncation that retains only the interactions among resolved variables yields the approximate dynamicsdφ^/dt≈R^\(φ^\)\\,\\mathrm\{d\}\\widehat\{\\varphi\}/\\,\\mathrm\{d\}t\\approx\\widehat\{R\}\(\\widehat\{\\varphi\}\)\. However, this approximation is generally inadequate: the unresolved variables continue to influence the resolved dynamics through their coupling in the original system, and neglecting this influence introduces systematic errors\. The exact reduced\-order dynamics therefore takes the form dφ^dt=R^\(φ^\)\+C,\\frac\{\\mathrm\{d\}\{\\widehat\{\\varphi\}\}\}\{\\mathrm\{d\}\{t\}\}=\\widehat\{R\}\(\\widehat\{\\varphi\}\)\+\\mathcal\{C\},\(2\)whereR^\(φ^\)\\widehat\{R\}\(\\widehat\{\\varphi\}\)repres

Mamba辅助的非马尔可夫闭合用于降阶建模

相似文章

基于拓扑感知排序的图Mamba生存分析

基于Branched Neural Rough Differential Equations的流形与It\^o动力学学习

ReTAMamba：用于不规则临床时间序列预测的可靠性感知时间聚合与Mamba方法

利用流匹配捕获非平衡随机系统中的非马尔可夫动力学

面向自回归动力系统预测的可扩展单步生成建模

提交意见反馈