PIMSM: 物理信息驱动的多尺度Mamba：分布偏移下稳定的神经表示

arXiv cs.LG 2026/05/19 04:00 论文

摘要

本文提出物理信息驱动的多尺度Mamba（PIMSM），这是一种状态空间架构，它将模型记忆与物理时间尺度对齐，以提升在科学时间序列分布偏移下的鲁棒性，并在fMRI和天气预报任务上展示了改进。

arXiv:2605.16351v1 公告类型: new 摘要：科学基础模型期望在数据集、采集协议和部署领域发生变化时重用表示，然而许多序列主干将科学时间结构视为待拟合的无约束模式。我们认为这忽略了自然动力系统的一个核心属性：神经和大气时间序列由跨多个物理时间尺度相互作用的进程组织，未能保留这种多尺度结构会导致分布偏移时的脆弱性。我们将这种失效模式形式化为时间核失配，即模型以未锚定到信号物理时间尺度的有效记忆策略拟合分布内动力学，从而导致表示漂移和迁移性能下降。我们提出物理信息驱动的多尺度Mamba（PIMSM），这是一种状态空间架构，它将频谱估计的频率区间之间的过渡点（膝点频率）映射到尺度特定的离散化参数，并将其锚定到采集时间单位。在Human Connectome Project的fMRI数据上，PIMSM在严重时间上下文截断、极端低资源迁移以及静息态到任务态泛化下提升了鲁棒性和表示稳定性。无需模态特定适配，同一架构在Weather-5K留出站点的空间分布外预测中也取得了所有报告时间范围和变量的最低变量级MAE。这些结果表明，时间尺度对齐作为科学基础模型在部署变化下必须保持结构而不仅是拟合相关性的一种实用归纳偏置。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:41

# PIMSM: 物理知情的多尺度Mamba用于分布漂移下的稳定神经表征 来源: https://arxiv.org/html/2605.16351 Sangyoon Bae 跨学科人工智能项目 首尔国立大学 首尔, 韩国, 08826 stellasybae@snu\.ac\.kr &Shinjae Yoo 计算科学计划 布鲁克海文国家实验室 Shirley, 纽约, 美国, 11967 sjyoo@bnl\.gov &Jiook Cha 心理学系 首尔国立大学 首尔, 韩国, 08826 connectome@snu\.ac\.kr ###### 摘要 科学基础模型被期望在数据集、采集协议和部署领域发生变化时重用表征，然而许多序列主干将科学时间结构视为需要拟合的无约束模式。我们认为这忽略了自然动力系统的一个核心属性：神经和大气时间序列由跨多个物理时间尺度的交互过程组织而成，未能保留这种多尺度结构会导致分布漂移下的脆弱性。我们将这种失败模式形式化为*时间核失配*，即模型拟合分布内动力学时所使用的有效记忆策略未锚定于信号的物理时间尺度，从而导致表征漂移和迁移性能下降。我们提出**物理知情多尺度Mamba（PIMSM）**，这是一种状态空间架构，它将频谱估计的频率区间过渡点（拐点频率）映射到尺度特定的离散化参数，并将其锚定在采集时间单位上。在人类连接组项目fMRI数据上，PIMSM在严重时间上下文截断、极端低资源迁移以及静息态到任务态泛化下均提升了鲁棒性和表征稳定性。无需模态特定适配，同一架构在Weather-5K留出站点的空间分布外推预测中，在所有报告的时间步长和变量上也取得了最低的变量级MAE。这些结果支持将时间尺度对齐作为科学基础模型的一种实用归纳偏置，使得模型在部署漂移下能够保留结构，而不仅仅是拟合相关性。 ## 1 引言 科学基础模型有望跨数据集、采集协议和下游任务提供可重用的表征。然而，对于多尺度科学时间序列，重用不仅依赖于拟合大规模训练分布中的相关性，更取决于学习底层的时间结构。因此，我们的目标不仅是提升基准准确率，而是编码神经与大气信号共享的物理直觉：其预测结构跨交互时间尺度组织。神经记录表现出无标度动力学，有时需要超过单个标度指数来描述，包括fMRI中的多重分形组织[He, 2011 (https://arxiv.org/html/2605.16351#bib.bib9), Ciuciu et al., 2012 (https://arxiv.org/html/2605.16351#bib.bib10), Bae et al., 2025 (https://arxiv.org/html/2605.16351#bib.bib8)]，以及分层大气湍流在跨物理尺度上显示出不同的频谱区[Chenget al., 2020 (https://arxiv.org/html/2605.16351#bib.bib12)]。如果序列主干将这些动力学视为无约束模式而非物理组织的多尺度过程，它可能拟合分布内数据，同时学习到一个与信号相关时间尺度错位的记忆策略。这种错位在部署漂移下变得最为明显。时间分辨率、采样率、扫描仪/站点、脑状态、季节、站点和可用标签在训练与使用之间可能发生变化，而许多基础模型的宣称仍由分布内或狭窄漂移评估驱动。近期的大脑基础模型[Tak et al., 2026 (https://arxiv.org/html/2605.16351#bib.bib23), Wang et al., 2025a (https://arxiv.org/html/2605.16351#bib.bib32), b (https://arxiv.org/html/2605.16351#bib.bib33), 2026 (https://arxiv.org/html/2605.16351#bib.bib34)]和时间序列预测基础模型[Abhimanyu, 2024 (https://arxiv.org/html/2605.16351#bib.bib27), Ansari et al., 2024 (https://arxiv.org/html/2605.16351#bib.bib28), Woo et al., 2024 (https://arxiv.org/html/2605.16351#bib.bib29)]展示了大规模表征学习和零/低数据自适应的价值。然而，这一发展路径主要扩展数据、参数或自适应机制；很少询问主干本身是否保留了应在漂移下保持有意义的物理时间结构。因此我们提出一个互补问题：什么样的架构约束帮助科学基础模型保留多尺度结构，使其表征在漂移下可重用？我们将此失败模式框架化为**时间核失配**。当无约束序列主干学习到一个约束不足或占主导地位的有效记忆策略覆盖整个时间序列时，就会发生这种情况：模型可以拟合分布内分割的平均时间统计，同时与物理时间尺度锚定不足。当时间上下文、采集条件、脑状态或部署领域变化时，该策略可能不再保留任务相关的动力学，产生表征漂移和迁移性能下降。这激励了暴露和约束时间尺度的架构，而不是将所有尺度选择留给无约束的端到端训练。遵循近期对多重分形结构进行的频率分辨fMRI建模[Bae et al., 2025 (https://arxiv.org/html/2605.16351#bib.bib8)]，我们对频谱拟合分段幂律形式：
P(f) ∝ f^{-β_k}, f ∈ [f_{k-1}, f_k], k=1,...,K, (1)
其中拐点频率f_k是分离时间区域的频谱过渡点。本文中，分段频谱模型用于提取这些拐点并将其转换为时域SSM中尺度特定的时间参数，将多尺度动力学转化为可观测的目标时间尺度，而非仅仅定性声明信号“复杂”。为了在时域显式建模这些区域，序列主干需要参数可与物理时间单位绑定。Mamba风格的选择性SSM似乎通过离散化步骤Δ提供了这种控制，它影响记忆和更新速度[Gu and Dao, 2023 (https://arxiv.org/html/2605.16351#bib.bib13)]。然而，Δ本身并非物理采样间隔：诱导核取决于Δ和A共同作用（例如通过exp(ΔA)），因此两者可以相互补偿。没有额外结构，SSM可以拟合分布内核，同时对有效时间尺度与采集单位或频谱区域的关系缺乏控制。与通用超参数调优不同，采集单位锚定使Δ成为数据模型的一部分：学习到的更新率以TR或小时表示，与信号采样和部署的单位相同。这使得时间尺度选择具有可解释性，并且更有可能跨上下文、状态和领域漂移迁移。基于此观察，我们引入**物理知情多尺度Mamba (PIMSM)**。PIMSM将时间尺度对齐重新定义为一个架构需求：它用一个频谱引导的核层次结构替代完全无约束的时间参数化，这些核的尺度锚定在采集时间上。PIMSM并非将多尺度结构视为外部预处理步骤或可调性能技巧，而是利用观测到的频谱层次来参数化状态空间动力学。我们的中心假设是：与多尺度组织对齐的核能捕获更具可重用性的动力学，从而减少漂移下的表征漂移和性能下降。我们在缩短的神经观测窗口、稀缺任务标签、脑状态迁移和地理留出气象站上进行了测试，有意改变了模态和部署上下文。在HCP上，PIMSM相比参数匹配的单尺度基线提升了鲁棒性和表征稳定性；在Weather-5K上，它在所有预测步长上给出了一致的变量级增益。我们的主要贡献如下：
- •**时间尺度对齐作为实用的基础模型需求。** 我们将时间核失配形式化为一种诊断方法，用于判断科学时间序列表征在采集、上下文或领域漂移下何时未能保留相关的物理时间尺度。
- •**物理知情的多尺度时间参数化。** 我们提出物理知情多尺度Mamba (PIMSM)，这是一种结构化的多尺度状态空间架构，从频谱估计的拐点频率导出尺度特定的时间核，以采集时间单位表达Δ，并正则化A尺度以减少Δ-A补偿。
- •**跨神经与物理系统的多轴鲁棒性评估。** 我们在神经和气象时间序列上评估了PIMSM面对多种结构化漂移的表现，显示物理知情多尺度时间结构无需漂移特定自适应即可提升鲁棒性。

## 2 问题设定
令e ∈ E索引一个采集或领域条件（fMRI TR、脑状态、扫描仪/站点、气象站点模式等）。结构化漂移e → e'会改变x_{1:T} ∈ R^d的时间统计，同时保留下游任务定义。因此标签或预测目标是固定的，但部署时可用的时间证据、监督预算、状态或站点领域发生了变化。我们评估四个轴：轴(i) 任务运动块的时间上下文截断（全行程频谱校准）；轴(ii) 低资源迁移；轴(iii) 脑状态漂移（静息态→任务态）；轴(iv) Weather-5K空间分布外推预测（留出站点）。该设定下的核心对象是由编码器诱导的时间加权剖面。给定多元时间序列x_{1:T}，时间编码器Φ_θ诱导条件相关的潜在状态：
h_{1:T}^{(e)} = Φ_θ^{g̃_e}(x_{1:T}), z_e(x) = ρ(h_{1:T}^{(e)}), (2)
其中g̃_e表示条件e下模型诱导的时间加权剖面，ρ聚合潜在状态为表征。任务头g_ψ预测ŷ = g_ψ(z_e(x))。在漂移下，问题在于当条件变为e'时，架构是否能在没有漂移特定重训练或自适应的情况下保留有用的时间加权剖面和表征几何。我们通过几何感知差异D（使用CKA[Kornblith et al., 2019 (https://arxiv.org/html/2605.16351#bib.bib16)]或距离相关dCor[Székely et al., 2007 (https://arxiv.org/html/2605.16351#bib.bib17)]）来量化条件间的表征漂移：
Drift(e, e') := E_x[ D(z_e(x), z_{e'}(x)) ], (3)
并报告每个漂移对的下游性能和Drift(e, e')。对于Weather-5K，使用相同的设定配合回归头和变量级MAE；对于HCP，g_ψ是分类器，z通过准确率和表征稳定性指标评估。

## 3 理论
单个有效时间尺度定义了一个受约束的时间加权函数：较快的衰减强调最近样本并传递更多高频变化，而较慢的衰减在更长时间滞上平均并保留上下文，代价是滞后或错过快速变化[Oppenheim, 1999 (https://arxiv.org/html/2605.16351#bib.bib18), Brown, 1959 (https://arxiv.org/html/2605.16351#bib.bib19)]。在SSM中，这个加权函数就是时间核，其衰减剖面指定了每个过去时刻对当前表征的贡献。当TR、上下文长度、脑状态或站点模式变化时，任务相关的滞后结构可能改变；模型诱导核与该结构对齐不良将产生漂移的潜在状态。因此我们将记忆对齐问题形式化为时间核失配，并分析核误差如何传播到表征和预测误差。PIMSM通过维护多个频谱导出的核而非迫使一个主导时间尺度服务所有区域来解决这个问题。

### 3.1 记忆作为核匹配
许多基于SSM的编码器允许局部线性卷积视角[Gu et al., 2021 (https://arxiv.org/html/2605.16351#bib.bib15), Gu and Dao, 2023 (https://arxiv.org/html/2605.16351#bib.bib13)]：
h(t) = ∫_0^∞ g(τ) x(t-τ) dτ,   h̃(t) = ∫_0^∞ g̃(τ) x(t-τ) dτ, (4)
其中g是给定条件下的*真实*有效核（或保留任务相关动力学所需的核），g̃是模型诱导/近似的核。

###### 引理1 (核失配界)。假设‖x‖_∞ ≤ M。令h和h̃定义如式(4)。则
‖h - h̃‖_∞ ≤ M ‖g - g̃‖_1。 (5)
证明见附录M (https://arxiv.org/html/2605.16351#A13)。对于线性读出，表征漂移也会约束预测不稳定性（命题2 (https://arxiv.org/html/2605.16351#Thmproposition2)），给出直观：
‖Δh‖ ≲ M ‖g_{e'} - g̃‖_1, (6)
因此时间核失配可以传播到漂移下的下游误差。多尺度核以结构化方式扩展了近似族：
g_K(t) = ∑_{k=1}^K α_k e^{-t/τ_k}, α_k ≥ 0, ∑_k α_k = 1, τ_1 ≥ τ_2 ≥ ... ≥ τ_K。 (7)
通过将{τ_k}绑定到频谱导出的拐点并强制执行有序层次，PIMSM旨在不依赖漂移特定自适应的情况下减少可达的不匹配inf_{g̃∈G_K} ‖g_{e'} - g̃‖_1。附录I (https://arxiv.org/html/2605.16351#A9) 给出关于幂律目标的互补近似视角。

## 4 方法
### 4.1 整体架构
参考图注
图1: 时间动力学的物理知情多尺度参数化。(a) SpectralHyperNet计算输入PSD，估计拐点频率和谱指数，并拟合分段幂律PSD。(b1–b3) 拐点划分频率轴而非时间序列；每个区域的一个能量加权代表频率映射到以采集单位（fMRI为TR，天气为小时；默认K=3）表示的有序离散化参数，用于快慢SSM头，其状态通过跨尺度注意力交互。

PIMSM将多尺度时间结构集成到状态空间框架中，无需模态特定组件。如图1 (https://arxiv.org/html/2605.16351#S4.F1)所示，SpectralHyperNet从输入频谱估计拐点频率和标度指数；这些估计参数化尺度特定的SSM时间步长Δ_k，使用与采集相同的单位——对于fMRI用TR表示，对于气象用小时表示——并将状态转移矩阵A_k的标度固定为归一化值，以最小化Δ-A补偿。附录B (https://arxiv.org/html/2605.16351#A2)提供了详细架构，附录D (https://arxiv.org/html/2605.16351#A4)提供了频谱估计方法。

### 4.2 频谱引导的时间尺度选择
令X(f) = F[x(t)]为输入序列的傅里叶变换，且P(f) = |X(f)|^2。SpectralHyperNet对对数-对数坐标下的P(f)进行稳健分段线性拟合，检测k个拐点f_1, ..., f_K，其中频谱斜率发生显著变化（附录D (https://arxiv.org/html/2605.16351#A4)）。然后将每个区间中的代表频率f̃_k（例如能量加权平均）映射到离散化步长：
Δ_k = (1 / f̃_k) × c_k， (8)
其中c_k将Δ_k缩放到采集单位（fMRI为秒，气象为小时）。此映射确保了较慢的核（低频率）具有更大的Δ，而较快的核（高频率）具有更小的Δ。时间步长在训练期间保持不变；SpectralHyperNet在每个前向传播中计算拐点，保持频谱意识。

### 4.3 多尺度状态空间层
给定输入x_t ∈ R^d和离散化步长{Δ_k}_{k=1}^K，我们维护K个独立的SSM，每个具有自己的隐藏状态h_t^{(k)} ∈ R^n。第k个SSM的更新为：
h_t^{(k)} = exp(Δ_k A_k) h_{t-1}^{(k)} + (exp(Δ_k A_k) - I) A_k^{-1} B_k x_t,   y_t^{(k)} = C_k h_t^{(k)}。 (9)
跨尺度注意力将每个头的输出聚合为联合表征：y_t = ∑_{k=1}^K Softmax(MLP(y_t^{(k)})) ⊙ y_t^{(k)}。我们使用K=3作为默认设置，对应低频（缓慢）、中频和快频。对A_k的谱半径进行约束以防止消失/爆炸梯度。

### 4.4 损失与训练
对于分类任务（HCP），我们使用交叉熵损失L_ce。对于回归任务（Weather-5K），我们使用均方误差L_mse。为了鼓励多尺度核的物理一致性，我们添加正则化项L_reg，惩罚Δ_k相对于其推导来源f̃_k的偏差。总损失为L = L_task + λ L_reg，其中λ为超参数。训练采用Adam优化器，学习率调度和早停策略。

PIMSM: 物理信息驱动的多尺度Mamba：分布偏移下稳定的神经表示

相似文章

PE-MHL：用于复杂系统可扩展学习的物理编码模块化混合层

物理信息机器学习用于短期洪水预测

SPDM：基于流形约束的几何调制状态空间建模用于时间序列预测

ReTAMamba：用于不规则临床时间序列预测的可靠性感知时间聚合与Mamba方法

PESD-TSF：一种周期感知与显式结构化分解的长期时间序列预测框架

提交意见反馈