按部就班：使用评分规则的自动睡眠分期分类

arXiv cs.AI 2026/05/25 04:00 论文

sleep-staging rule-based explainable-ai clinical-ai polysomnography aasm

摘要

本文提出了一种确定性的、基于规则的睡眠分期方法，该方法明确实现了美国睡眠医学学会（AASM）的评分规则，并提供了逐时段的自然语言解释。在50份多导睡眠图记录中，该方法与多数投票共识达到了60.5%的逐时段一致性，为不透明的深度学习模型提供了透明性的补充。

arXiv:2605.22859v1 公告类型：cross 摘要：自动睡眠分期通常被视为有监督的机器学习问题，深度学习方法主导了近期研究。尽管机器学习模型在与人评分参考睡眠分期的一致性上达到接近人类水平，但其决策通常不透明，且并非设计用于遵循临床评分规则。我们提出了一种透明的替代方案：一种确定性的、基于规则的睡眠分期方法，该方法将美国睡眠医学学会（AASM）的评分逻辑明确作为可执行代码实现，并结合从解释跟踪中得出的逐时段自然语言理由。我们在50份多导睡眠图记录上评估了该方法，以10位评分者的多数投票共识作为参考。在所有记录中，该方法在60.5%的时段上与多数投票参考一致（$\kappa=0.42$），在开发使用的数据集上一致性显著更高（77.1%，$\kappa=0.61$）。与参考的一致性在睡眠阶段N2（召回率83.5%）最高，在睡眠阶段R（召回率68.7%）中等，而清醒期和N1的召回率较低。尽管与参考的一致性低于当前深度学习模型，但该方法提供了确定性的决策和与AASM评分规则一致的自然语言解释，使其成为审计、调试和管理基于深度学习的睡眠分期的补充工具。

查看原文

查看缓存全文

缓存时间: 2026/05/25 09:02

# 照本宣科：使用评分规则的自动睡眠分期
来源: https://arxiv.org/html/2605.22859
Emil Hardarson雷克雅未克大学计算机科学系，冰岛雷克雅未克雷克雅未克大学睡眠研究所，冰岛雷克雅未克Konstantin Popov雷克雅未克大学睡眠研究所，冰岛雷克雅未克雷克雅未克大学工程系，冰岛雷克雅未克Sigridur SigurdardottirAnna Sigridur Islind雷克雅未克大学计算机科学系，冰岛雷克雅未克雷克雅未克大学睡眠研究所，冰岛雷克雅未克Erna Sif Arnardóttir雷克雅未克大学计算机科学系，冰岛雷克雅未克雷克雅未克大学睡眠研究所，冰岛雷克雅未克雷克雅未克大学工程系，冰岛雷克雅未克María Óskarsdóttir南安普顿大学数学科学学院，英国南安普顿雷克雅未克大学计算机科学系，冰岛雷克雅未克

###### 摘要

自动化睡眠分期通常被视为一个有监督的机器学习问题，其中深度学习方法在近期研究中占据主导地位。虽然机器学习模型与人工评分的参考睡眠分期达到了接近人类水平的一致性，但它们的决策通常不透明，并且并非旨在遵循临床评分规则。我们提出了一种透明的替代方案：一种确定性的、基于规则的睡眠分期方法，该方法将美国睡眠医学会（AASM）的评分逻辑明确地操作为可执行代码，并附带基于解释轨迹的时段级自然语言理由。我们在50份多导睡眠图记录上评估了该方法，以10位评分者的多数投票共识作为参考。在所有记录中，该方法与多数投票参考的一致性为60.5%（κ=0.42\\kappa=0.42），在开发过程中使用的数据集上一致性显著更高（77.1%，κ=0.61\\kappa=0.61）。该方法与参考的一致性对于N2期睡眠最高（召回率83.5%），对于R期睡眠为中等（召回率68.7%），而Wake和N1期的召回率较低。尽管与参考的一致性低于当代深度学习模型，但该方法提供了与AASM评分规则一致的确定性决策和自然语言解释，使其成为审计、调试和管理基于深度学习的睡眠分期的补充工具。

††footnotetext:缩略语：AI：人工智能，ML：机器学习，PSG：多导睡眠图，EEG：脑电图，EOG：眼电图，EMG：肌电图，AASM：美国睡眠医学会，R&K：Rechtschaffen和Kales，LAMF：低幅混合频率，SWA：慢波活动，LLM：大语言模型关键词：睡眠分期，基于规则的人工智能，可解释人工智能，多导睡眠图

## 1 引言

临床实践中的许多决策受到书面规则和指南的约束。当这些决策被自动化时，目标不仅是产生准确的输出，还要保留决策本应依据规则做出的逻辑 [3 (https://arxiv.org/html/2605.22859#bib.bib2),22 (https://arxiv.org/html/2605.22859#bib.bib38)]。临床决策中的自动化越来越多地通过有监督的机器学习（ML）算法实现，这些算法学习统计模式以与人类标签达到高度一致，但并未明确受到决策规则的约束 [33 (https://arxiv.org/html/2605.22859#bib.bib13),20 (https://arxiv.org/html/2605.22859#bib.bib4),3 (https://arxiv.org/html/2605.22859#bib.bib2)]。

睡眠分期就是这样一个受规则约束的临床决策工作流程的实例。它是睡眠研究和临床实践的基础步骤，是诊断睡眠障碍和理解睡眠生理学的基础。测量睡眠的金标准是称为多导睡眠图（PSG）的睡眠研究，它涉及整夜记录多种生理信号，如脑电图（EEG）、眼电图（EOG）和颏肌电图（EMG）[36 (https://arxiv.org/html/2605.22859#bib.bib16)]。

临床睡眠分期指南，例如美国睡眠医学会（AASM）发布的指南，规定睡眠应以连续的30秒时段进行分期。每个时段被归类为五种睡眠阶段之一：清醒期、快速眼动（REM）睡眠（R期睡眠），或非REM睡眠1、2、3期（N1、N2或N3期）。睡眠分期由人类睡眠专家手动执行，每个整夜记录通常需要1到3小时 [13 (https://arxiv.org/html/2605.22859#bib.bib31),26 (https://arxiv.org/html/2605.22859#bib.bib5)]。手动睡眠分期存在评分者间变异性，不同睡眠阶段的一致性也不同。多评分者研究发现，对于Wake、N2和R期睡眠的一致性相对较高，但对于N1和N3期睡眠的一致性较低 [32 (https://arxiv.org/html/2605.22859#bib.bib33),27 (https://arxiv.org/html/2605.22859#bib.bib28),24 (https://arxiv.org/html/2605.22859#bib.bib8)]。专家评分者之间的完全一致性仅出现在少数时段中 [7 (https://arxiv.org/html/2605.22859#bib.bib52),6 (https://arxiv.org/html/2605.22859#bib.bib35)]。越来越多的睡眠研究 [9 (https://arxiv.org/html/2605.22859#bib.bib20)] 和手动睡眠分期的劳动密集型性质，推动了实用可靠的自动睡眠分期算法的发展 [12 (https://arxiv.org/html/2605.22859#bib.bib37)]。

近年来，有监督的ML，特别是深度学习（DL），已成为自动睡眠分期的主导方法 [2 (https://arxiv.org/html/2605.22859#bib.bib1),40 (https://arxiv.org/html/2605.22859#bib.bib47),1 (https://arxiv.org/html/2605.22859#bib.bib30),14 (https://arxiv.org/html/2605.22859#bib.bib50)]。在大型人类标记睡眠记录数据集上训练的ML模型，其性能已达到与人类评分者间一致性相当的水平 [29 (https://arxiv.org/html/2605.22859#bib.bib17),37 (https://arxiv.org/html/2605.22859#bib.bib51)]。ML模型通过学会识别信号中的统计模式来实现这一点 [35 (https://arxiv.org/html/2605.22859#bib.bib25),30 (https://arxiv.org/html/2605.22859#bib.bib45),16 (https://arxiv.org/html/2605.22859#bib.bib32)]。然而，这种训练过程通常不能保证与临床评分规则的逻辑一致 [34 (https://arxiv.org/html/2605.22859#bib.bib26)]。模型预测背后的推理难以解释和理解，这种现象被称为“黑箱”问题 [20 (https://arxiv.org/html/2605.22859#bib.bib4)]。

睡眠分期ML模型推理的这种不透明性对其临床采用构成了障碍 [34 (https://arxiv.org/html/2605.22859#bib.bib26)]。当人类睡眠专家对睡眠研究进行评分时，他们可以通过指向临床指南中定义的特征来证明其决策的合理性，例如睡眠纺锤波或α节律 [17 (https://arxiv.org/html/2605.22859#bib.bib18)]。尽管ML模型可能学会识别此类模式，但它们是通过将高维数据映射到数百万内部参数来完成的，而不是通过明确的逻辑步骤。

睡眠分期本质上是一个基于规则的决策过程，其底层逻辑已经明确指定。AASM评分手册提供了一套确定性的规则，因此原则上算法不需要从训练数据中推断这种逻辑。尽管如此，当代文献中关于明确使用临床指南中描述的评分逻辑的方法存在显著空白。

从历史上看，自动睡眠分期并非始于ML。早期方法试图将人类评分实践转化为算法，最初依据Rechtschaffen和Kales（R&K）标准 [31 (https://arxiv.org/html/2605.22859#bib.bib34)]，后来依据AASM评分手册的第一版 [21 (https://arxiv.org/html/2605.22859#bib.bib14),18 (https://arxiv.org/html/2605.22859#bib.bib6),28 (https://arxiv.org/html/2605.22859#bib.bib3)]。早期的基于规则的方法，例如 [25 (https://arxiv.org/html/2605.22859#bib.bib21)] 中所述，已经表明睡眠评分逻辑可以操作化并与人类共识达到高度一致 [28 (https://arxiv.org/html/2605.22859#bib.bib3),4 (https://arxiv.org/html/2605.22859#bib.bib7),5 (https://arxiv.org/html/2605.22859#bib.bib15),8 (https://arxiv.org/html/2605.22859#bib.bib19)]。自动睡眠分期领域后来转向ML和DL方法，因为它们具有强大的睡眠分期准确性 [12 (https://arxiv.org/html/2605.22859#bib.bib37),10 (https://arxiv.org/html/2605.22859#bib.bib46)]，但基于规则的方法并未消失 [15 (https://arxiv.org/html/2605.22859#bib.bib22)]。

操作化睡眠评分规则的一个实际挑战是，睡眠阶段标签取决于评分手册中描述的中间信号特征。例如，评分决策可能取决于某个时段是否包含睡眠纺锤波、K复合波、慢波活动、快速眼动、α节律、低幅混合频率活动或颏肌电张力的变化。在本文中，我们将这些与睡眠分期决策相关的信号片段称为**微标注**。早期的计算机辅助和基于规则的睡眠分期系统已经隐式地操作了部分临床评分逻辑，例如通过专家定义的特征或关于睡眠阶段转换的规则 [28 (https://arxiv.org/html/2605.22859#bib.bib3),4 (https://arxiv.org/html/2605.22859#bib.bib7),5 (https://arxiv.org/html/2605.22859#bib.bib15),25 (https://arxiv.org/html/2605.22859#bib.bib21)]。然而，大多数当代自动睡眠分期系统报告的是睡眠阶段标签或概率，而不是暴露连接信号特征与评分决策的规则应用过程。

除了分配睡眠阶段标签之外，自动评分方法还可以通过展示决策是如何做出的来支持解释。在睡眠分期中，这需要以人类评分者熟悉的形式将信号特征、评分标准和最终阶段分配联系起来 [17 (https://arxiv.org/html/2605.22859#bib.bib18)]。很少有自动睡眠分期系统提供时段级的自然语言理由来追踪通过评分规则的决策过程。

在本文中，我们通过使操作化过程显式化，建立在自动睡眠分期的基于规则的传统之上：我们将AASM评分手册的逻辑翻译为可执行代码，并记录每个睡眠阶段分配背后的推理过程。结果是一种确定性的、可检查的方法，其中睡眠阶段分配可以追溯到算法使用的评分规则和信号注释。

在本文中，我们提出以下问题：AASM睡眠分期评分手册的逻辑在多大程度上可以被操作化为确定性的、可检查的代码，并且当这种方法针对多评分者人类共识进行评估时，会出现哪些局限性？我们通过开发一个用Python编写的顺序、逻辑驱动的睡眠分期算法来解决这个研究问题，该算法将AASM评分规则的逻辑操作化为可执行代码。此外，我们实现了一个解释机制，该机制记录每个睡眠阶段分配背后的基于规则的推理，并将此推理呈现为链接到评分规则的自然语言理由。

我们使用50份整夜II型PSG记录对该方法进行了评估，这些记录由10名人类睡眠专家独立评分。评估表明，该方法与多评分者共识达到了中等程度的一致性，在N2和R期睡眠中表现最强。基于审阅者的差异评估表明，审查出的差异主要与不完整或不准确的微标注有关，而非规则逻辑本身。虽然以往的基于规则的睡眠分期方法已将规则用作指导或处理步骤，但我们提出了我们所知的首个尝试将AASM评分手册的临床逻辑明确编码到算法中的方法 [39 (https://arxiv.org/html/2605.22859#bib.bib27),2 (https://arxiv.org/html/2605.22859#bib.bib1)]。

## 2 方法

### 2.1 算法

我们设计的自动睡眠分期算法旨在模拟AASM评分手册的逻辑。该方法用Python 3.12编写，通过处理PSG数据分三个步骤确定睡眠阶段，如图1 (https://arxiv.org/html/2605.22859#S2.F1) 所示。

开始整夜属性微标注标记确定阶段标签基于转换的阶段结束整夜处理分配阶段转到下一时段这是最后一个时段？结束确定N3？标记N3确定Wake？标记Wake确定REM？标记REM确定N2？标记N2确定N1？标记N1标记未定义是是否否是否否是否否是否否是否

图1：自动睡眠分期过程的示意图。顶部图显示了从初始处理整夜属性和微标注到两遍睡眠分期过程的高层步骤。整夜属性指记录级信息，例如α节律状态和颏肌电图基线，这些信息在应用某些时段级评分规则之前是必需的。确定睡眠阶段的标记以展开视图显示，其中每个时段依次与每个睡眠阶段的标准进行比较。缩写：N1，非快速眼动睡眠1期；N2，非快速眼动睡眠2期；N3，非快速眼动睡眠3期；REM，快速眼动睡眠。该过程首先加载以欧洲数据格式（EDF）（一种生理时间序列记录的标准文件格式）存储的原始PSG数据，使用MNE Python库 [23 (https://arxiv.org/html/2605.22859#bib.bib49)]，将信号分割成30秒时段，并检查信号完整性。之后，睡眠分期过程开始。首先，该方法建立与整夜记录相关的属性。这些**整夜属性**作为全局变量，控制某些评分规则的适用性。例如，布尔变量 `generates_alpha_rhythm` 通过在枕部EEG通道上的滑动窗口Welch周期图分析来确定，该分析估计信号随时间变化的频谱功率，并识别α频段活动是否存在 [36 (https://arxiv.org/html/2605.22859#bib.bib16),38 (https://arxiv.org/html/2605.22859#bib.bib29)]。该变量区分了AASM评分手册中`F2`规则（对于产生α节律的患者，睡眠应始于α活动减弱并被低幅混合频率EEG信号取代时）和`F3`规则（睡眠始于最早出现的背景频率减慢、顶尖波或慢速眼动）的使用。另一个整夜属性是颏肌电基线，它为颏肌电信号建立全局统计量，以定义高和低肌张力的阈值，这在分类R期睡眠时使用。

其次，该算法识别评分规则中描述的各种生理事件。这些微标注存储为包含事件标签、时间边界和通道导联的元组。YASA Python库 [37 (https://arxiv.org/html/2605.22859#bib.bib51)] 用于检测额部和中央EEG通道上的睡眠纺锤波、快速眼动（REM）和慢波活动（SWA）。α节律和低幅混合频率...

按部就班：使用评分规则的自动睡眠分期分类

相似文章

一种冲突感知的证据框架用于可靠的睡眠阶段分类

STDA-Net：基于频谱图的跨数据集睡眠分期领域适应

基于轻量级随机注意力机制的高效移动睡眠分期时序建模

超越增强：评分引导的病理先验用于基于EEG的抑郁症检测

揭示多模态儿科睡眠嵌入中的轨迹和拓扑特征

提交意见反馈