基于轻量级随机注意力机制的高效移动睡眠分期时序建模

arXiv cs.AI 2026/06/15 04:00 论文

sleep-staging lightweight-attention random-attention temporal-modeling mobile-health eeg wearable

摘要

提出随机注意力（Random Attention, RA）模块，这是一种用于移动睡眠分期的轻量级时序建模模块，采用固定随机投影进行基于相似度的聚合，以极少的额外参数实现具有竞争力的性能。

arXiv:2606.13694v1 公告类型: cross 摘要：移动睡眠分期是居家睡眠监测和闭环调控的基础设施。然而，现有的序列模型如RNN和Transformer因计算开销大，难以部署在移动设备上。本文提出随机注意力（Random Attention, RA），一种基于固定随机投影的轻量级时序建模模块，通过基于相似度的聚合替代可学习的序列建模。RA在epoch编码器之外仅引入极少的额外参数，同时实现有效的时序平滑。我们进一步通过随机注意力先验核（Random Attention Prior Kernel, RAPK）提供理论解释，将RA分解为全局平滑项和特征相似项，为睡眠时序结构提供可解释的视角。在Sleep-EDF-20和Sleep-EDF-78上的实验表明，RA在准确率和F1分数上比基于epoch的基线持续提升1-3\%，同时与LSTM、GRU和Transformer模型相比具有竞争力。RA在不同骨干编码器上展现出强泛化能力，并且相比传统时序平滑方法具有更强的鲁棒性。这些结果表明，通过轻量级基于相似度的时序聚合可以实现高效的睡眠分期，使RA适用于实时可穿戴应用。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:13

# 移动睡眠分期的高效时序建模：基于轻量级随机注意力
来源: https://arxiv.org/html/2606.13694

###### 摘要

移动睡眠分期作为居家睡眠监测和闭环调节的基础设施，近年来受到广泛关注。然而，现有的 RNN 和 Transformer 等序列模型在移动端部署时计算开销大。本文提出随机注意力 (Random Attention, RA)，一种基于固定随机投影的轻量级时序建模模块，它用基于相似度的聚合取代了可学习的序列建模。RA 在历元编码器之外几乎不引入额外参数，同时实现了有效的时序平滑。我们进一步通过随机注意力先验核 (Random Attention Prior Kernel, RAPK) 提供理论解释，将 RA 分解为一个全局平滑项和一个特征相似度项，从而为睡眠时序结构提供了可解释的视角。在 Sleep-EDF-20 和 Sleep-EDF-78 上的实验表明，RA 在准确率和 F1 分数上持续提升历元级基线 1-3%，同时取得了与 LSTM、GRU 和 Transformer 模型相竞争的性能。RA 还在不同骨干编码器上展现出强大的泛化能力，并且较传统时序平滑方法具有更好的鲁棒性。这些结果表明，轻量级的基于相似度的时序聚合可以实现高效睡眠分期，使 RA 适用于实时可穿戴应用。

## I. 引言

自动睡眠分期是实现大规模睡眠健康监测、数字表型分析和闭环神经调节的基础 [1 (https://arxiv.org/html/2606.13694#bib.bib1),2 (https://arxiv.org/html/2606.13694#bib.bib2),3 (https://arxiv.org/html/2606.13694#bib.bib3)]。尽管多导睡眠图 (PSG) 仍是临床金标准，但其对昂贵设备和专家标注的依赖限制了可扩展性。近年来可穿戴传感技术的进步，尤其是便携式 EEG 设备，使得家庭环境下的移动睡眠分期成为可能 [4 (https://arxiv.org/html/2606.13694#bib.bib4),5 (https://arxiv.org/html/2606.13694#bib.bib5),6 (https://arxiv.org/html/2606.13694#bib.bib6),7 (https://arxiv.org/html/2606.13694#bib.bib7)]。这些系统支持长期的、真实世界中的睡眠监测和实时闭环干预。然而，它们在移动设备上的部署仍然受限于计算和能耗预算，从而在实践中限制了高精度睡眠分期的实现 [8 (https://arxiv.org/html/2606.13694#bib.bib8)]。

现有的深度学习方法大致可分为历元级建模和序列建模。历元级方法独立处理每个 30 秒的 EEG 历元 [8 (https://arxiv.org/html/2606.13694#bib.bib8),9 (https://arxiv.org/html/2606.13694#bib.bib9),10 (https://arxiv.org/html/2606.13694#bib.bib10)]。虽然计算效率高，但它们忽略了睡眠结构的强时序连续性，常常导致不稳定的预测，违反生理转换模式。为解决这一局限，LSTM 和 GRU 等序列模型已被广泛用于捕捉相邻历元间的时序依赖 [11 (https://arxiv.org/html/2606.13694#bib.bib11),12 (https://arxiv.org/html/2606.13694#bib.bib12),13 (https://arxiv.org/html/2606.13694#bib.bib13)]。最近，基于 Transformer 的模型通过自注意力建模长程依赖，展现了改进的性能 [14 (https://arxiv.org/html/2606.13694#bib.bib14),15 (https://arxiv.org/html/2606.13694#bib.bib15)]。然而，这些性能提升是以增加计算复杂度、内存使用和推理延迟为代价的，使其不太适合资源受限的移动应用。这促使我们更深入地思考：对于睡眠分期而言，这种建模复杂度是否真正必要？

进一步的实验证据表明，在传统序列模型中扩展时序上下文往往只能带来边际甚至不一致的性能提升 [16 (https://arxiv.org/html/2606.13694#bib.bib16),17 (https://arxiv.org/html/2606.13694#bib.bib17),18 (https://arxiv.org/html/2606.13694#bib.bib18),19 (https://arxiv.org/html/2606.13694#bib.bib19)]；如果长程依赖建模是主要驱动力，那么随着时序窗口的增大，性能本应系统性地提升。这表明时序建模的好处可能更多地源于强制局部时序一致性，而非捕捉复杂的远距离交互。这一观察与睡眠的生理特性一致，其中睡眠阶段转换通常是平滑的、渐进的且高度冗余的，相邻历元共享相似的模式。因此，一个根本问题出现了：睡眠分期需要建模复杂长程依赖的假设是否真的成立，还是说，基于睡眠阶段转换的生理连续性，更简单的平滑机制能更有效地捕获时序结构？

我们之前在随机 Transformer 方面的工作表明，睡眠分期可以有效地解释为一个自适应平滑过程，其中随机注意力在抑制局部噪声的同时，基于特征相似性保留有意义的转换 [20 (https://arxiv.org/html/2606.13694#bib.bib20)]。这一观点暗示性能提升主要来自强制时序一致性，而非学习复杂依赖。

受此启发，我们提出一种轻量级的随机注意力 (RA) 机制用于移动睡眠分期。RA 不学习参数密集的时序依赖，而是使用固定的随机投影进行内容感知的时序聚合，以最小的计算开销实现高效的序列建模。这一设计明确利用了睡眠阶段转换的生理特性，使其非常适合在资源受限设备上实时部署。

在基准数据集上的大量实验表明，所提出的方法在显著减少模型大小和计算成本的同时，实现了与常规序列模型相当的性能。其在鲁棒性和峰值性能方面也优于标准的后处理平滑方法。

本文的主要贡献总结如下：

- • 我们从自适应平滑的角度重新审视时序睡眠分期，挑战了复杂依赖建模的必要性。
- • 我们提出了一种轻量级的随机注意力机制，实现了高效、内容感知的时序建模。
- • 我们通过大量实验证明，与序列模型和传统的平滑方法相比，所提出的方法在提高效率和鲁棒性的同时取得了具有竞争力的性能。

## II. 方法

### II-A 问题定义

给定一个 EEG 历元序列 $X=\{x_1, x_2, \dots, x_T\}$，其中每个 $x_t \in \mathbb{R}^{C \times L}$ 是一个 30 秒的段（$L=3000$ 在 100 Hz 下），目标是预测睡眠阶段标签序列 $Y=\{y_1, y_2, \dots, y_T\}$，$y_t \in \{W,N1,N2,N3,REM\}$。

大多数移动系统首先通过轻量级 CNN 编码器提取历元级表示 $Z=\{z_1,\dots,z_T\}$，$z_t \in \mathbb{R}^d$，然后应用时序建模。我们用随机注意力 (RA) 替代成本高昂的 LSTM/GRU/Transformer 模块。

### II-B 随机注意力

RA 构建一个轻量级的随机注意力矩阵 $A$，并聚合特征为 $O = AZ$，其中 $A$ 从不被学习。相反，每个历元被投影到一个固定的随机低维空间：

$$Q = ZW_Q, \quad K = ZW_K,\quad W_Q, W_K \in \mathbb{R}^{d \times d_k}$$

其元素在初始化时采样一次，之后保持冻结。然后注意力权重为 [21 (https://arxiv.org/html/2606.13694#bib.bib21)]

$$A = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)$$

（按行）。由于 $W_Q$ 和 $W_K$ 是固定的，RA 几乎不引入额外的可训练参数，只有历元编码器和最终分类器被学习。

基于我们之前的研究，投影矩阵使用 Xavier 均匀初始化 [22 (https://arxiv.org/html/2606.13694#bib.bib22)]

$$W \sim \mathcal{U}\left(-\sqrt{\frac{6}{d+d_k}},\ \sqrt{\frac{6}{d+d_k}}\right).$$

经验上，均匀方案（如 Xavier 或 Kaiming）优于高斯方案。从核函数的角度看，高斯初始化压缩了特征方差，导致注意力 logits 趋近于零，使模型退化为近均匀平均。相比之下，均匀初始化保留了特征尺度，使注意力分数处于一个既能平衡平滑又能保留结构的稳定范围内，这对于捕捉睡眠阶段转换中的时序依赖至关重要。

### II-C 理论解释

RA 的有效性直接源于我们先前工作中建立的随机注意力先验核 (RAPK) [20 (https://arxiv.org/html/2606.13694#bib.bib20)]。在高维极限下 ($d_k \to \infty$)，期望核收敛为

$$\mathbb{E}[K_{\text{RAP}}] \approx C_0 \mathbf{1}\mathbf{1}^\top + C_1 Z Z^\top,$$

其中 $Z Z^\top$ 是历元表示的 Gram 矩阵，$C_0, C_1$ 是正的、序列相关的标量，其大小由初始化方差和序列长度决定，并与输入特征的全局统计量成比例。

这一分解表明 RA 实现了内容感知的时序平滑：

- • 全局项 $C_0 \mathbf{1}\mathbf{1}^\top$ 强制时序惯性，抑制高频噪声。
- • 相似度项 $C_1 Z Z^\top$ 根据特征相似度自适应地加权交互。

因此，RAPK 核结合了一个全局平均项和一个内容自适应平滑项，与睡眠分期的生理特性相匹配。

全局项 $C_0 \mathbf{1}\mathbf{1}^\top$ 捕捉了睡眠状态惯性：睡眠变化缓慢，因此相邻历元很可能共享同一阶段。因此它在局部窗口内施加均匀平均偏差，抑制孤立的波动和噪声预测。

然而，仅靠均匀平均会模糊真正的阶段转换。内容自适应项 $C_1 Z Z^\top$ 根据特征相似度调整平滑强度：表示相似的历元被平滑在一起，而表示不相似的历元（通常位于阶段边界两侧）之间的交互则弱得多。因此，RAPK 在阶段内部强制强平滑，同时保留阶段之间有意义的转换。

### II-D 计算复杂度

标准自注意力在序列长度上具有二次复杂度，需要 $\mathcal{O}(T^2 d + T d^2)$ 的计算和 $\mathcal{O}(T^2 + T d)$ 的内存，这对于长的 EEG 序列来说变得难以承受。

相比之下，RA 用固定的随机投影机制取代了显式的成对注意力计算，无需构建完整的 $T \times T$ 注意力矩阵。这将计算成本降低到 $\mathcal{O}(T d D_k)$，内存成本降低到 $\mathcal{O}(T D_k)$。前馈网络的缺失进一步降低了整体复杂度，同时通过低秩词元混合保留了时序交互。

由此产生的结构化投影避免了密集注意力的存储，并支持跨时间轴的完全并行化。与 LSTM、GRU 和 Transformer 基线相比，RA 实现了显著更低的延迟和内存消耗，使其非常适合实时可穿戴 EEG 推理场景。表 I (https://arxiv.org/html/2606.13694#S2.T1) 定量比较了不同模型的计算和内存复杂度。

表 I: 计算复杂度比较。$T$ 是序列长度，$d$ 是特征维度，$D_k$ 是 RA 中的随机投影维度。表 II: Sleep-EDF 数据集的统计信息。

## III. 实验

### III-A 数据集

我们在 Sleep-EDF-20 和 Sleep EDFX [23 (https://arxiv.org/html/2606.13694#bib.bib23)] [24 (https://arxiv.org/html/2606.13694#bib.bib24)] 上进行评估。两者都包含整夜 EEG 记录 (Fpz-Cz 通道，100 Hz)，标注为五个阶段 (W, N1, N2, N3, REM)。我们遵循标准的独立于被试的交叉验证方法，排除了运动/未知历元，并根据美国睡眠医学会指南将 S3/S4 合并为 N3。遵循先前的工作，仅保留了入睡前和睡眠终止后各 30 分钟的清醒期 [25 (https://arxiv.org/html/2606.13694#bib.bib25)]。对于 Sleep-EDF-20，我们采用 20 折交叉验证；对于 Sleep-EDFX，为与以往研究保持一致，采用 10 折交叉验证。表 II (https://arxiv.org/html/2606.13694#S2.T2) 总结了本研究中使用的数据集的统计信息。

### III-B 实现细节

我们采用一个轻量级基于 CNN 的历元编码器，后接一个时序建模模块用于睡眠分期。具体来说，我们基于先前的工作 MicrosleepNet [8 (https://arxiv.org/html/2606.13694#bib.bib8)]，它由两个组件构成：(1) 基于组卷积的特征提取编码器，(2) 基于空洞卷积的特征融合模块。我们考虑两种骨干设置。第一种记为 MicrosleepNet_Encoder，仅包含特征提取编码器。第二种记为 MicrosleepNet，包含完整的原始架构。对于 RA，默认随机投影维度为 $d_k=128$。基线包括：(i) 仅历元编码器，(ii) LSTM [26 (https://arxiv.org/html/2606.13694#bib.bib26)]，(iii) GRU [27 (https://arxiv.org/html/2606.13694#bib.bib27)]，(iv) 可训练的 Transformer [21 (https://arxiv.org/html/2606.13694#bib.bib21)]。每个样本包含一个由 10 个连续历元组成的滑动窗口。

训练进行 100 个 epoch，使用 AdamW 优化器，初始学习率 $1\times10^{-3}$，权重衰减 $1\times10^{-4}$，批量大小 20。对于可训练的 Transformer 基线，Transformer 层和可学习的位置嵌入以降低的学习率 $1\times10^{-4}$ 进行优化。我们应用早停法（耐心 10 个 epoch）、5 个 epoch 的热身调度，以及最大范数 2.0 的梯度裁剪。评估指标包括总体准确率、加权 F1、Cohen's kappa 和每个阶段的 F1。

所有实验均使用 PyTorch 实现，并在单个 NVIDIA RTX 3090 GPU (24GB) 上进行。为了确保模型间的公平比较，不应用额外的信号预处理、数据增强或类别平衡策略。

表 III: 主要结果。基线以灰色高亮显示，提出的 RA 变体为全粗体。括号内为相较于基线的提升。增加了计算成本（参数量和 MFLOPs）。

### III-C 主要结果

表 III (https://arxiv.org/html/2606.13694#S3.T3) 总结了所提出的随机注意力 (RA) 与历元级基线以及三个强序列建模基线在 Sleep-EDF-20 和 Sleep-EDFX 上的完整性能比较。结果报告了两种 MicroSleepNet 变体：MicroSleepNet_Encoder 和 Micr

基于轻量级随机注意力机制的高效移动睡眠分期时序建模

相似文章

动态线性注意力

按部就班：使用评分规则的自动睡眠分期分类

一种冲突感知的证据框架用于可靠的睡眠阶段分类

STDA-Net：基于频谱图的跨数据集睡眠分期领域适应

Dynamic Linear Attention

提交意见反馈