Cascade-KDE:分布外脉冲干扰下的鲁棒时间序列修复

arXiv cs.LG 论文

摘要

提出Cascade-KDE,一种无需训练的框架,利用二维核密度估计和截断期望来修复被分布外脉冲异常值污染的时间序列,同时保留局部结构和导数特征。

arXiv:2605.24055v1 公告类型:新 摘要:在工业传感、医疗健康和能源系统中的真实世界时间序列数据常常受到高斯噪声和偶尔的大幅度脉冲异常值的混合污染。对于依赖局部形状的任务,如心电图形态分析和电池退化监测,主要要求不仅是低重建误差,还要保留导数峰值和任务关键特征。我们提出Cascade-KDE,一种用于受损时间序列的无需训练的修复框架。该方法首先估计二维时间-幅度密度,然后应用密度截断鲁棒期望来限制远处异常点的影响,最后通过具有自适应停止的指数级联来细化序列。该设计旨在提高在分布外脉冲干扰下的鲁棒性,同时使修复后的轨迹接近原始局部结构。在多个基准数据集上,所提方法在曲线保真度、导数保留、下游分类和运行效率方面相比经典滤波器和代表性基于学习的基线表现出一致的改进。这些结果表明,基于有界密度的修复是含噪时间序列流程中特征保留预处理的一个实用选择。
查看原文
查看缓存全文

缓存时间: 2026/05/26 08:59

# Cascade-KDE: 面向分布外脉冲干扰的鲁棒时间序列恢复

来源:https://arxiv.org/html/2605.24055

11institutetext:数字与智能产业学院(网络空间安全学院),
内蒙古科技大学,包头,中国
11email:liuyuefeng@imust\.edu\.cn, yangning@stu\.imust\.edu\.cn, 2024022322@stu\.imust\.edu\.cn

###### 摘要

工业传感、医疗和能源系统中的真实世界时间序列数据,通常受高斯噪声与偶发大幅值脉冲异常值的混合污染。对于依赖局部形态的任务(如心电图形态分析、电池退化监测),主要需求不仅是低重建误差,还要保留导数峰值和任务关键特征。

我们提出 Cascade-KDE,一种无需训练的受损时间序列恢复框架。该方法首先估计二维时间-幅值密度,然后应用密度截断鲁棒期望来限制远处异常点的影响,最后通过带自适应停止的指数级联对序列进行精炼。该设计旨在提升在分布外脉冲干扰下的鲁棒性,同时使恢复轨迹贴近原始局部结构。

在多个基准数据集上,所提方法在曲线保真度、导数保持、下游分类和运行效率方面,均比经典滤波器和代表性学习基线取得了一致的性能提升。这些结果表明,有界密度恢复是基于噪声时间序列流程中特征保留预处理的一个实用选择。

## 1 引言

时间序列恢复是许多人工智能流程中的核心预处理步骤,包括电池健康估计、心电图分析、工业监测和能源预测。在这些场景中,观测信号常受混合污染:背景高斯噪声、稀疏大幅值脉冲异常值,以及偶尔缺失或扭曲的局部片段。因此,一种实用的恢复方法不仅需要降低逐点误差,还必须保留局部形态、导数峰值和下游任务效用。

当受损样本来自分布外(OOD)条件时,这一要求尤为重要。在温和高斯噪声上表现良好的方法,当罕见尖峰出现在关键峰值附近时,仍可能失败,因为误差可能扩散到相邻时间戳,或抑制分类器或预后模型所依赖的局部结构。经典滤波器可以去除尖峰,但可能过度平滑尖锐特征,而许多学习型去噪器依赖于训练时见过的污染模式,可能难以泛化到极端 OOD 脉冲噪声环境\[8 (https://arxiv.org/html/2605.24055#bib.bib1),6 (https://arxiv.org/html/2605.24055#bib.bib2),10 (https://arxiv.org/html/2605.24055#bib.bib5),2 (https://arxiv.org/html/2605.24055#bib.bib19)\].

我们的关键观察是:脉冲异常值在联合时间-幅值空间中往往是孤立的,即使在一维波形中视觉上很突出。这表明恢复不应仅依赖沿时间方向的局部平均。相反,信号可以表示为时间与幅值的二维密度,并且可以通过聚焦于主信号流形对应的有界高密度区域来恢复恢复目标。

基于这一观察,我们提出 Cascade-KDE,一个无需训练的框架,结合了密度估计与截断条件期望。该方法首先估计二维核密度,然后在局部支撑区域内计算有界鲁棒期望,最后应用指数级联来精炼恢复轨迹。自适应停止规则选择能最佳平衡平滑度与特征保持的级联深度。

这一视角将本文从以滤波器为中心的观点,转变为面向受损 AI 输入的恢复观:目标不仅是抑制噪声,还要恢复一个在 OOD 脉冲干扰下仍对下游学习任务有用的表示。

我们的主要贡献如下:

- • **特征保持的恢复视角**:我们将时间序列中的 OOD 脉冲干扰形式化为一个特征保持恢复问题,其目标包括导数保真度和下游效用,而不仅仅是逐点重建误差。
- • **密度截断期望**:我们引入一个在局部密度支撑上的有界条件期望,以减少联合时间-幅值空间中远处高幅值异常值的影响。
- • **自适应级联精炼**:我们开发了一个带自适应停止规则的指数级联,逐步精炼恢复轨迹,同时限制对显著峰值的过度平滑。
- • **多任务评估**:我们在多个基准时间序列数据集上,从重建、导数保持、下游分类和运行效率等方面评估了该方法。

## 2 相关工作

时间序列去噪已从学习型和经典角度进行了广泛研究。学习型方法可以建模复杂模式,但当污染模式与训练时所见不同时,其行为可能发生显著变化。这对于稀疏、大幅值且常位于任务关键峰值附近的脉冲污染尤其突出。此外,近年来复杂结构和关系表示学习的进展,展示了建模复杂数据依赖的强大能力。例如,差异感知掩码自编码器\[14 (https://arxiv.org/html/2605.24055#bib.bib50)\]、关系感知异质性分离\[15 (https://arxiv.org/html/2605.24055#bib.bib51)\]、多尺度提示学习\[13 (https://arxiv.org/html/2605.24055#bib.bib52)\]以及面向基础模型的解耦关系对齐\[16 (https://arxiv.org/html/2605.24055#bib.bib53)\],显著提升了图领域的表示鲁棒性。然而,尽管这些学习策略在捕获全局关系语义方面表现优异,但直接将它们适应于一维时间序列信号——其中必须在极端分布外(OOD)脉冲噪声下保留严格的局部形态和导数响应——仍然是一个独特的挑战。

经典滤波器和鲁棒统计方法因其无需训练且易于部署而具有吸引力。然而,标准局部平滑在去除尖锐尖峰的同时,也可能削弱峰值结构或导数信息。非参数回归方法更灵活,但当支撑区域未得到谨慎约束时,其对极端观测值的响应可能仍然敏感。这些观察启发了一种结合密度估计、有界期望和自适应精炼的恢复方法\[9 (https://arxiv.org/html/2605.24055#bib.bib18),3 (https://arxiv.org/html/2605.24055#bib.bib20),1 (https://arxiv.org/html/2605.24055#bib.bib21),7 (https://arxiv.org/html/2605.24055#bib.bib22)\].

## 3 问题形式化与动机

设时间序列序列定义为S=\{\(ti,yi\)\}i=1N,其中ti表示时间索引,yi是观测值。在许多 AI 流程中,受损观测不仅是在逐点意义上带有噪声;它还需要保留局部形态、导数峰值以及下游学习所需的任务关键结构。这激发了一个超越最小化逐点误差的恢复目标。

观测受混合噪声污染:

yi=f\(ti\)\+εi\+δi\(1\)其中f\(ti\)是底层真实物理流形,εi∼N\(0,σ2\)是高斯背景噪声,δi表示稀疏、大幅值的脉冲异常值。目标是重建f^\(t\),使得导数df^/dt准确匹配真实df/dt,这对下游特征提取至关重要。为确保各向同性的空间距离计算,在预处理之前,将t和y标准化到\[0,1\]空间边界框内\[12 (https://arxiv.org/html/2605.24055#bib.bib41),11 (https://arxiv.org/html/2605.24055#bib.bib42),4 (https://arxiv.org/html/2605.24055#bib.bib43),5 (https://arxiv.org/html/2605.24055#bib.bib44)\].

## 4 方法

参见图注图1:Cascade-KDE 流水线概述。最终示意图应总结从受损输入到特征保持输出的完整恢复流程。

### 4.1 二维时间-幅值密度映射

与沿时间轴平均的一维滤波器不同,我们将S视为二维点云。我们应用二维高斯核密度估计(KDE)来构建连续空间概率密度函数:

p^\(t,y\)=1Nhthy∑i=1NK\(t−tiht,y−yihy\)\(2\)其中K是标准二维高斯核,ht, hy是带宽参数。真实信号的密集簇形成高密度脊,而稀疏脉冲异常值保持孤立,密度贡献可忽略。

### 4.2 密度截断鲁棒期望

从p^\(t,y\)提取连续流形的标准方法是在连续积分下的条件期望值:

y^NW\(t\)=E\[Y∣T=t\]=∫−∞∞y⋅p^\(t,y\)dy∫−∞∞p^\(t,y\)dy\(3\)这种无界期望在功能上等价于经典的 Nadaraya-Watson 核回归。然而,当受到高幅值 OOD 脉冲异常值影响时,标准形式可能对远处值过于敏感。无穷积分边界迫使期望全局地纳入异常值的坐标,这可能导致污染扩散到邻近时间戳。

Cascade-KDE 的第一个核心创新是**密度截断鲁棒期望**。我们摒弃连续无穷积分,而是在局部有界空间网格Ω\(t\)内执行期望。对于每个时间戳tj,我们首先在标准化幅值空间中收集局部支撑窗口Wj,并使用四分位距计算鲁棒区间:

Wj=\{yi∣\|ti−tj\|≤rt\},Ω\(tj\)=\[max\(0,Q0\.25\(Wj\)−1\.5IQR\(Wj\)\),min\(1,Q0\.75\(Wj\)\+1\.5IQR\(Wj\)\)\]。\(4\)其中 rt 是局部时间半径,Q0\.25 和 Q0\.75 是第一和第三四分位数,IQR\(Wj\)=Q0\.75\(Wj\)−Q0\.25\(Wj\)。该定义与实现中使用的截断评估网格一致,使得支撑区域依赖于局部幅值分布而非全局极值。

然后计算期望为:

y^\(t\)=∫Ω\(t\)y⋅p^\(t,y\)dy∫Ω\(t\)p^\(t,y\)dy,Ω\(t\)⊆\[ymin,ymax\]\(5\)在离散实现中,该网格在标准化空间内截断。当极端脉冲异常值出现时,它可能落在评估网格之外,因此对恢复值的直接贡献有限。

### 4.3 指数级联精炼

为进一步精炼恢复轨迹,我们将截断期望嵌入到分层指数级联结构中。与大规模感受野滤波器不同,我们使用窄空间带宽,并在迭代中更新。

设提取过程为函数Φ。级联序列定义为:

S^\(k\)=Φ\(S^\(k−1\),h\(k\)\)for k=1,2,3,...,其中 S^\(0\)=Snoisy\(6\)在第一次迭代中,窄带宽允许附近干净数据点局部稀释任何残余的孤立噪声纹波。在随后的每个级联层中,恢复序列在局部支撑区域内被精炼。非常大的k值最终可能导致序列过度平滑,因此应自适应选择级联深度。

### 4.4 边界反射填充

非参数 KDE 在序列开头和结尾可能因核支撑不对称而产生边界偏差。为减少此效应,我们在密度估计前应用反射填充:

Spad=\{\(2t0−tj,yj\)\}j=1W∪S∪\{\(2tN−tN−j,yN−j\)\}j=1W\(7\)其中W是窗口大小。这会在两端镜像信号,从而在边界附近提供对称的密度支撑。

### 4.5 帕累托引导的自适应停止以实现峰值保持

指数级联呈现一个权衡:更大的K可提高平滑度,但可能降低特征幅值。为动态地在最优深度K∗处停止级联,我们构建一个追踪二阶导数的多目标帕累托搜索:

K∗=argmaxK\(Fsharpness\(K\)−λHsmoothness\(K\)\)\(8\)其中Hsmoothness=std\(d2y/dt2\)衡量高频变化的减少,而Fsharpness=max\|d2y/dt2\|追踪尖锐局部结构的保持。

参见图注图2:帕累托引导的自适应级联深度选择。

**算法 1** 帕累托引导的指数级联 KDE

1: **输入:** 含噪序列 Snoisy,最大层数 Kmax
2: **输出:** 恢复序列 S^\(∗\)
3: 将时间和幅值标准化到 \[0,1\]
4: 设 S^\(0\) ← Snoisy,bestScore ← −∞
5: 设 S^\(∗\) ← S^\(0\)
6: **for** k = 1 **到** Kmax **do**
7:     从 S^\(k−1\) 估计带宽 ht\(k\), hy\(k\)
8:     应用反射填充
9:     用二维高斯 KDE 估计 p^\(k\)\(t,y\)
10:     **for** 每个时间索引 tj **do**
11:         使用局部分位数定义 Ω\(tj\)
12:         通过截断期望更新 S^j\(k\)
13:     **end for**
14:     计算 sharpness 和 smoothness 分数
15:     如果分数提升则更新 S^\(∗\)
16:     如果分数持续下降 **then**
17:         **break**
18:     **end if**
19: **end for**
20: **返回** S^\(∗\)

## 5 理论分析

### 5.1 无界条件期望的敏感性

相似文章

桥接分类与重建:协同时间序列异常检测

arXiv cs.LG

本文提出CoAD,一种新颖的框架,统一了异常暴露(分类)和掩码自编码器(重建)两种范式用于时间序列异常检测,解决了它们各自的局限性。大量实验表明,CoAD在轻量快速的同时,显著优于现有最先进方法。

ADAPTOOD:面向分布外心电图时间序列模型的不确定性感知微调

arXiv cs.LG

ADAPTOOD 是一种新颖框架,利用数据不确定性量化分布偏移的严重程度,并指导心电图时间序列模型在分布外设置下的微调。它将不确定性估计与低秩模型更新和自适应超参数优化相结合,在现有OOD自适应方法基础上实现了高达7%的准确率提升和12.9%的精确度提升。

谱遗忘恢复:无需重新训练即可事后恢复受损能力

arXiv cs.LG

本文提出DG-Hard,一种事后谱修复方法,仅使用预训练和微调检查点,即可恢复因微调而受损的能力,无需重新训练。该方法将Donoho-Gavish硬奇异值阈值应用于权重更新,去除噪声并恢复退化的性能。