面向切换动态序列的时变深度状态空间模型

arXiv cs.LG 2026/05/18 04:00 论文

摘要

本文提出了一类时变深度状态空间模型，其动态特性通过基函数展开进行学习，从而能够自适应建模切换系统。该方法在合成切换数据和语音去噪任务上均优于时不变模型。

arXiv:2605.15311v1 公告类型：新论文摘要：时变系统的辨识与建模是信号处理与系统辨识领域的一项基本挑战。为应对这一挑战，我们提出了一类基于时变状态空间模型（SSM）的神经网络，其中神经元的状态受时变动态控制。所提模型通过一组基函数字典提供可学习的时变动态，每个基函数随时间以不同方式演化。我们在切换系统生成的合成数据和真实音频受切换动态噪声污染的语音去噪任务上评估了该方法。结果表明，所提时变模型在保持计算复杂度相当的同时，始终优于其对应的时不变模型。我们的研究还揭示了：时不变模型最需要捕捉数据的哪些时变动态特性；时变基函数提供的额外自由度应如何在模型组件间分配；以及更大规模的模型能在多大程度上弥补时不变性的局限性。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:39

# 用于切换动力学的序列时变深度状态空间模型
来源：https://arxiv.org/html/2605.15311
Subhrakanti DeyAyça ÖzçelikkaleDepartment of Electrical Engineering, Uppsala University, Sweden, \(e\-mail: \{Sanja\.Karilanova, Subhrakanti\.Dey, Ayca\.Ozcelikkale\}@angstrom\.uu\.se\)\.

###### 摘要

时变系统的辨识与建模是信号处理与系统辨识领域的一项基本挑战。为应对此挑战，我们提出了一类基于时变状态空间模型(SSM)的神经网络，其中神经元的状态由时变动力学支配。所提出的模型通过一个基函数字典提供可学习的时变动力学，每个基函数随时间以不同方式演化。我们在切换系统的合成数据以及真实音频被切换动力学噪声污染的语音去噪任务上评估了所提方法。结果表明，所提时变模型在保持可比较计算复杂度的同时，始终优于其时不变对应模型。我们的研究还揭示了：时不变模型最需要捕捉数据的哪些时变动力学方面；由时变基函数提供的额外自由度应如何在模型组件间分配；以及更大规模的模型在多大程度上可以弥补时不变性的局限。

###### 关键词:

系统辨识，时变，深度学习，切换状态空间模型，深度状态空间模型

††thanks:S\. Karilanova 感谢乌普萨拉大学跨学科数学中心(CIM)的支持。A\. Özçelikkale 感谢瑞典研究理事会通过资助协议号 2024-05194 提供的支持。计算资源由瑞典国家高性能计算基础设施(NAISS)提供，部分由瑞典研究理事会通过资助协议号 2022-06725 资助。## 1 引言

参考图注图 1：左图：示例网络架构，具有单通道输入层、包含 SSM 神经元的两个隐藏层和一个双通道输出层。中图：具有时变动力的 SSM 神经元。右图：针对 SSM 状态转移矩阵中单个时变元素的所提议基函数展开示意图。许多现实世界的过程本质上是时变的，这意味着它们的内在动力学随时间演化。这种时变行为出现在各个领域，例如金融市场、天气预报、能源消耗和神经活动分析。因此，系统辨识中的一个核心挑战是构建足够灵活以捕捉此类演化动力学的模型Hua 等 (2023 (https://arxiv.org/html/2605.15311#bib.bib35))；Liu 等 (2022 (https://arxiv.org/html/2605.15311#bib.bib18))。

状态空间模型 (SSM) 为系统辨识提供了一个原理性且可解释的框架。在其具有线性状态转移的经典形式（通常称为线性动态系统 (LDS)Kalman (1963 (https://arxiv.org/html/2605.15311#bib.bib48))）中，它们假设固定的时不变转移动力学。

LDS 处理时变数据的一个常见扩展是切换线性动态系统 (SLDS)Sun and Ge (2005 (https://arxiv.org/html/2605.15311#bib.bib43))，其中动力学在多个 LDS 模式之间切换。虽然 SLDS 在捕捉状态切换方面有效，但学习 SLDS 仍然具有挑战性，因为它需要估计模式的数量、每个模式的模型阶数以及相应的参数Paoletti 等 (2007 (https://arxiv.org/html/2605.15311#bib.bib10))。

LDS 的另一个不同于 SLDS 的扩展是深度 SSM。这些模型将 LDS 块堆叠成具有非线性变换的层，最近在长序列建模任务上取得了与 Transformer 相当的性能Gu 等 (2022b (https://arxiv.org/html/2605.15311#bib.bib26))Smith 等 (2023 (https://arxiv.org/html/2605.15311#bib.bib22))，并且已应用于非线性系统辨识Gedon 等 (2021 (https://arxiv.org/html/2605.15311#bib.bib54))。深度 SSM 的扩展包括输入依赖机制Gu and Dao (2024 (https://arxiv.org/html/2605.15311#bib.bib52))以及输入时间尺度不变公式Gu 等 (2020 (https://arxiv.org/html/2605.15311#bib.bib53))。

传统上，系统辨识研究早已通过自适应滤波、基函数展开 (Tsatsanis and Giannakis (1993 (https://arxiv.org/html/2605.15311#bib.bib38)); Grenier (1983 (https://arxiv.org/html/2605.15311#bib.bib47)); Niedzwiecki (1988 (https://arxiv.org/html/2605.15311#bib.bib45)); Zou 等 (2003 (https://arxiv.org/html/2605.15311#bib.bib44))) 和变点检测 (van den Burg and Williams (2020 (https://arxiv.org/html/2605.15311#bib.bib20))) 等方法探索时变和非平稳行为。最近，深度学习也成为系统辨识的强大工具Ljung 等 (2020 (https://arxiv.org/html/2605.15311#bib.bib55))，包括基于时变神经网络的方法，例如动态神经网络Hua 等 (2023 (https://arxiv.org/html/2605.15311#bib.bib35))和非平稳 Transformer 架构Liu 等 (2022 (https://arxiv.org/html/2605.15311#bib.bib18))。

我们的工作将时变基函数展开方法引入现代深度 SSM 架构，并展示了在系统辨识任务上的性能。与通过 SLDS 的显式建模不同，我们的框架无需显式指定切换模式，而是建模平滑、连续时变的动力学，从而能够通过标准的随时间反向传播 (BPTT) 进行高效训练。与通过输入依赖性在深度 SSM 中建模时变性相反，我们的框架显式建模与输入无关的时间相关动力学。图 1 (https://arxiv.org/html/2605.15311#S1.F1) 提供了我们提出的框架的可视化。

本文的主要贡献如下：

- • 我们提出了一种新颖的时变深度 SSM 框架，使用可学习的基函数来参数化状态转移矩阵、输入矩阵和输出矩阵随时间的变化。
- • 我们在合成数据和真实世界的音频去噪场景（具有非平稳噪声动力学）上提供了实验验证。
- • 我们探讨了所提模型架构中的权衡，包括 SSM 动力学不同部分和基函数分配的影响，并与其时不变对应模型进行了比较。

总体而言，我们的结果表明，在处理切换动力学数据时，所提出的时变模型始终优于其时不变对应模型，同时保持可比较的计算复杂度。

## 2 方法

### 2.1 预备知识

#### 2.1.1 时不变 SSM 模型：

一个时不变线性离散时间 SSM 由下式给出Ljung (1987 (https://arxiv.org/html/2605.15311#bib.bib46))

x\[t\]\\displaystyle\\bm\{x\}\[t\]=Ax\[t−1\]\+Bu\[t−1\]\\displaystyle=\\bm\{A\}\\bm\{x\}\[t\-1\]\+\\bm\{B\}\\bm\{u\}\[t\-1\]\(1a\)y\[t\]\\displaystyle\\bm\{y\}\[t\]=Cx\[t\],\\displaystyle=\\bm\{C\}\\bm\{x\}\[t\],\(1b\)其中可能可学习的矩阵参数为A∈Rn×n\\bm\{A\}\\in\\mathbb\{R\}^\{n\\times n\},B∈Rn×nin,C∈Rnout×n,D∈Rnout×nin\\bm\{B\}\\in\\mathbb\{R\}^\{n\\times n\_\{in\}\},\\bm\{C\}\\in\\mathbb\{R\}^\{n\_\{out\}\\times n\},\\bm\{D\}\\in\\mathbb\{R\}^\{n\_\{out\}\\times n\_\{in\}\}, 输入u\[t\]∈Rnin×1\\bm\{u\}\[t\]\\in\\mathbb\{R\}^\{n\_\{in\}\\times 1\}, 状态变量x\[t\]∈Rn×1\\bm\{x\}\[t\]\\in\\mathbb\{R\}^\{n\\times 1\}, 输出y\[t\]∈Rnout×1\\bm\{y\}\[t\]\\in\\mathbb\{R\}^\{n\_\{out\}\\times 1\}。

在基于 SSM 的神经网络背景下，我们将 (1 (https://arxiv.org/html/2605.15311#S2.E1)) 中的 SSM 称为一个神经元。具有这种 SSM 动力学的多个神经元可用于构成一个 SSM 层，参见图 1 (https://arxiv.org/html/2605.15311#S1.F1)。具有 SSM 动力学的层与可能非线性的激活函数层和混合层相结合，形成深度 SSM 网络Gu 等 (2022b (https://arxiv.org/html/2605.15311#bib.bib26))Smith 等 (2023 (https://arxiv.org/html/2605.15311#bib.bib22))。

#### 2.1.2 基函数展开：

基函数展开是一种将函数 f(t) 表示为更简单函数 φ^(k)(·)（称为基函数）的线性组合的方式，如下所示：

f\(t\)=∑k=1Kα\(k\)×φ\(k\)\(t\),\\displaystyle f\(t\)=\\sum^\{K\}\_\{k=1\}\\alpha^\{\(k\)\}\\times\\phi^\{\(k\)\}\(t\),\(2\)其中 αk∈R 是系数。基函数可以采用多种形式，例如傅立叶级数、高斯函数、多项式函数、有理正交函数和径向基函数。例如，我们可以有 φ^(k)=N(t|μk,σk^2)（用于高斯函数字典，其中 N(·) 表示高斯函数形状）和 φ^(k)=sin(w_kt+φ_k)（用于正弦函数字典），其中 μk,σk,wk,φ_k 是固定的预定义标量。

### 2.2 提出的时变 SSM 模型

我们提出以下时变 SSM 模型

x\[t\]\\displaystyle\\bm\{x\}\[t\]=A\[t\]x\[t−1\]\+B\[t\]u\[t−1\]\\displaystyle=\\bm\{A\}\[t\]\\bm\{x\}\[t\-1\]\+\\bm\{B\}\[t\]\\bm\{u\}\[t\-1\]\(3a\)y\[t\]\\displaystyle\\bm\{y\}\[t\]=C\[t\]x\[t\],\\displaystyle=\\bm\{C\}\[t\]\\bm\{x\}\[t\],\(3b\)其中 A[t], B[t], C[t] 的维度与 (1 (https://arxiv.org/html/2605.15311#S2.E1)) 中的时不变模型相同。然而，这些矩阵的每个元素现在都是基函数的线性组合。特别地，对于 A[t]，我们有

\[A\[t\]\]ij=ai,j\[t\]=∑k=1KAai,j\(k\)×φA,i,j\(k\)\[t\]\\displaystyle\[\\bm\{A\}\[t\]\]\_\{ij\}=a\_\{i,j\}\[t\]=\\sum^\{K\_\{A\}\}\_\{k=1\}a\_\{i,j\}^\{\(k\)\}\\times\\phi\_\{A,i,j\}^\{\(k\)\}\[t\]\(4\)其中 [A[t]]_ij = a_{i,j}[t] 表示矩阵 A[t] 的第 i 行第 j 列元素。 (4 (https://arxiv.org/html/2605.15311#S2.E4)) 中展开的示意图见图 1 (https://arxiv.org/html/2605.15311#S1.F1)。我们注意到基函数数量 K_A 独立于模型中的任何其他维度。这里我们展示了一般情况，其中基函数 φ_{A,i,j}^{(k)} 可能因 SSM 矩阵 (A,B,C)、索引 (i,j) 和展开项 (k) 而异。在实践中，这种异质性可以通过使用更小的共享基函数字典来减少。

类似于 A[t]，我们有：

\[B\[t\]\]ij\\displaystyle\[\\bm\{B\}\[t\]\]\_\{ij\}=bi,j\[t\]=∑k=1KBbi,j\(k\)×φB,i,j\(k\)\[t\]\\displaystyle=b\_\{i,j\}\[t\]=\\sum^\{K\_\{B\}\}\_\{k=1\}b\_\{i,j\}^\{\(k\)\}\\times\\phi\_\{B,i,j\}^\{\(k\)\}\[t\]\(5\)\[C\[t\]\]ij\\displaystyle\[\\bm\{C\}\[t\]\]\_\{ij\}=ci,j\[t\]=∑k=1KCci,j\(k\)×φC,i,j\(k\)\[t\]\.\\displaystyle=c\_\{i,j\}\[t\]=\\sum^\{K\_\{C\}\}\_\{k=1\}c\_\{i,j\}^\{\(k\)\}\\times\\phi\_\{C,i,j\}^\{\(k\)\}\[t\]\.\(6\)我们注意到 K_A, K_B, K_C 可以彼此独立选择。因此，A[t], B[t], C[t] 的子集可以像时不变模型 (1 (https://arxiv.org/html/2605.15311#S2.E1)) 中的那样保持时不变，而不受其他部分影响。

### 2.3 稳定性

深度 SSM 开发中的一个核心问题是确保 SSM 动力学的稳定性。 (3 (https://arxiv.org/html/2605.15311#S2.E3)) 中动力学的稳定性由 A[t] 控制。为简化表述，我们现在假设 A[t] 是对角矩阵，并且基函数满足 |φ_{A,i,j}^{(k)}[t]| ≤ 1。为确保稳定性，A[t] 的对角元素（特征值）的模必须严格小于 1，即 |a_{i,i}[t]| < 1。利用三角不等式，我们有

\|ai,i\[t\]\|\\displaystyle\|a\_\{i,i\}\[t\]\|=\|∑k=1KAai,i\(k\)×φA,i,i\(k\)\[t\]\|\\displaystyle=\|\\sum^\{K\_\{A\}\}\_\{k=1\}a\_\{i,i\}^\{\(k\)\}\\times\\phi\_\{A,i,i\}^\{\(k\)\}\[t\]\|\(7a\)≤∑k=1KA\|ai,i\(k\)×φA,i,i\(k\)\[t\]\|≤∑k=1KA\|ai,i\(k\)\|\\displaystyle\\leq\\sum^\{K\_\{A\}\}\_\{k=1\}\|a\_\{i,i\}^\{\(k\)\}\\times\\phi\_\{A,i,i\}^\{\(k\)\}\[t\]\|\\leq\\sum^\{K\_\{A\}\}\_\{k=1\}\|a\_\{i,i\}^\{\(k\)\}\|\(7b\)因此，如果保证了 ∑_{k=1}^{K_A} |a_{i,i}^{(k)}| < 1，则 |a_{i,i}[t]| < 1，这意味着由 A[t] 支配的动力学的稳定性。在训练期间，我们通过每次前向传播检查一次（而非每个时间步）来强制执行稳定性条件 ∑_{k=1}^K |a_{i,i}^{(k)}| < 1。如果此条件被违反，即 ∑_{k=1}^K |a_{i,i}^{(k)}| = c > 1，则我们应用缩放策略来强制执行约束，将系数重新定义为 ^a_{i,i}^{(k)} = (1/(c+ε)) a_{i,i}^{(k)}。通过此缩放，我们有如下确保稳定性的条件

∑k=1K\|a^i,i\(k\)\|=1c\+ε∑k=1K\|ai,i\(k\)\|=1c\+εc<1\.\\displaystyle\\sum^\{K\}\_\{k=1\}\|\\widehat\{a\}\_\{i,i\}^\{\(k\)\}\|=\\frac\{1\}\{c\+\\epsilon\}\\sum^\{K\}\_\{k=1\}\|a\_\{i,i\}^\{\(k\)\}\|=\\frac\{1\}\{c\+\\epsilon\}c<1\.\(8\)

### 2.4 参数数量

在 (1 (https://arxiv.org/html/2605.15311#S2.E1)) 中，A, B, C 的每个元素是一个单一的标量可学习参数，而在 (3 (https://arxiv.org/html/2605.15311#S2.E3)) 中，A[t], B[t] 和 C[t] 矩阵的每个元素是 K_A, K_B 和 K_C 个基函数的线性组合，其中每个系数是可训练的，因此分别对应每个元素的 K_A, K_B 和 K_C 个可学习参数。因此，所提模型增加了与 A, B 和 C 相关的可训练参数，每个神经元分别增加 K_A, K_B 和 K_C 个参数。

表 1：基线（时不变 SSM）中的可训练参数以及相对于所提出时变 SSM 的缩放因子。表 1 (https://arxiv.org/html/2605.15311#S2.T1) 总结了参数数量和缩放因子，其中 h 表示由 (1 (https://arxiv.org/html/2605.15311#S2.E1)) 或 (3 (https://arxiv.org/html/2605.15311#S2.E3)) 支配的层中的神经元数量；W 表示混合层的权重矩阵，该混合层连接一个具有 h 个神经元（每个神经元有 n_out 个输出和 n_in 个输入）的 SSM 层；C_bias 是一个可学习的输出偏置，添加到 (1b (https://arxiv.org/html/2605.15311#S2.E1.2)) 和 (3b (https://arxiv.org/html/2605.15311#S2.E3.2)) 中。

在许多情况下，神经网络具有大量低维状态空间的 SSM 神经元，即 n ≪ h，参见例如神经形态计算基准Yik and et. al. (2025 (https://arxiv.org/html/2605.15311#bib.bib16))。因此，在中等字典大小下，由我们所提出时变模型带来的额外可学习参数数量预计与总模型大小相比是较低的。

对于 n_out = n_in = 1 和对角 A，时不变情况下每个神经元的可学习参数总数为 p_invary = 3n_invar + 1，而时变情况下为 p_vary = n_va

面向切换动态序列的时变深度状态空间模型

相似文章

从流式时间序列中建模时滞系统的动态混合

使用时间段模型进行预测和控制

通过误差控制动力学重新思考循环模型中的状态跟踪

基于线性函数逼近的Q学习切换系统理论

通过变分深度嵌入发现可解释的EEG微状态：基于多象限评估的系统架构搜索

提交意见反馈