超越AHI:一种面向互联健康中睡眠恢复的可解释因果发现引导框架

arXiv cs.LG 论文

摘要

本文提出了一种可解释的因果发现引导框架,用于从多模态多导睡眠图数据中推导睡眠恢复评分(SRS),证明其与感知恢复的一致性比传统的呼吸暂停-低通气指数(AHI)强高达2.5倍,在互联健康中具有潜在应用。

arXiv:2606.18506v1 公告类型:新 摘要:客观睡眠评估依赖于多导睡眠图(PSG),但临床影响通常更好地体现在患者报告结局(PRO)中,如嗜睡和疲劳。现有的综合指标(包括呼吸暂停-低通气指数(AHI))对功能性恢复背后的多域生理学提供的洞察有限。我们提出了一种可解释的、因果发现引导的框架,用于从多模态PSG推导层次化的睡眠恢复评分(SRS)。利用两个大型人群队列(MESA:n=1540;MrOS:n=825),我们应用有向无环图(DAG)学习来识别涵盖呼吸负荷、缺氧负荷、睡眠碎片化、睡眠结构和自主神经调节的候选生理驱动因素。尽管这些域来自临床PSG,但它们自然地映射到互联健康技术中日益可用的传感流,包括可穿戴ECG、血氧测定和睡眠阶段估计设备。为了保持机制合理性,我们引入了一个两阶段筛选过程,结合基于生理学的约束和受约束的LLM辅助审计,以识别和消除结构性混杂因素及构造重叠变量。跨队列分析中,这五个域作为与恢复相关的反复出现的生理域出现,由此产生的SRS与感知恢复的一致性比AHI强高达2.5倍。通过将多模态睡眠生理学与以患者为中心的结果联系起来,采用可解释、具有偏差意识且域结构化的框架,这项工作为临床睡眠研究和新兴的智能互联健康环境中的恢复建模提供了实用基础。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:43

# 超越AHI:面向互联健康中睡眠恢复的可解释因果发现引导框架
来源:https://arxiv.org/html/2606.18506
Saba A\. Farahani∗Elahe Khatibi Manoj Vishwanath Amir M\. Rahmani Hung Cao 加州大学尔湾分校,美国加利福尼亚州尔湾 \{fazizaba, ekhatibi, manojv, a\.rahmani, hungcao\}@uci\.edu

###### 摘要

客观睡眠评估依赖于多导睡眠图(PSG),然而临床影响通常更能通过患者报告结局(PROs)(如嗜睡和疲劳)来体现。现有的汇总指标,包括呼吸暂停低通气指数(AHI),对功能恢复背后的多域生理学提供的洞察有限。我们提出一个可解释的、因果发现引导的框架,从多模态PSG中推导出分层睡眠恢复评分(SRS)。利用两个大型人群队列(MESA:n=1,540;MrOS:n=825),我们应用有向无环图(DAG)学习来识别跨越呼吸负担、缺氧负担、睡眠碎片化、睡眠结构和自主调节的候选生理驱动因素。虽然来源于临床PSG,但这些域自然地映射到互联健康技术中日益可用的传感流,包括可穿戴心电图、血氧测定和睡眠阶段估计设备。为了保持机制的合理性,我们引入了一个两阶段筛选过程,结合基于生理学的约束和受约束的LLM辅助审计,以识别和移除结构性混杂因素和构建重叠变量。跨队列一致地,这五个域作为与恢复相关的反复出现的生理域出现,并且生成的SRS与感知恢复的对齐强度比AHI高出最多2.5倍。通过一个可解释、有偏差意识且领域结构化的框架,将多模态睡眠生理学与以患者为中心的结局联系起来,这项工作为在临床睡眠研究和新兴的智能互联健康环境中的恢复建模提供了实践基础。

代码可用性。代码、提示模板和分类标准可在GitHub (https://github.com/elakhatibi/SRS-causal-discovery) 获取。

参见图标题图 1: 提出的睡眠恢复框架概述。(A) 多模态多导睡眠图 (PSG) 信号,包括 EEG、ECG 以及呼吸/血氧通道,被转换为生理特征。(B) 基于 NOTEARS 的有向无环图 (DAG) 模型识别恢复相关结局的候选生理驱动因素。(C) 一个两阶段筛选漏斗应用基于生理学的约束和受约束的 LLM 辅助审计,以移除混杂因素和构建重叠变量。(D) 筛选出的机制被聚合到五个生理域中——呼吸负担、缺氧负担、睡眠碎片化、睡眠结构和自主调节——以推导出分层的睡眠恢复评分 (SRS)。

## I 引言

互联健康系统日益整合多模态生理传感——包括可穿戴心电图 (ECG)、脉搏血氧仪和消费级睡眠设备——但将连续生物信号转化为临床可解释的恢复指标仍然是一个待解决的挑战。一个核心困难在于,分布式传感平台通常只捕获睡眠生理学的部分视图,这使得领域结构化和可解释的恢复建模对于向睡眠实验室以外的转化尤为重要。多导睡眠图 (PSG) 作为睡眠评估的临床金标准,捕获了涵盖脑电图 (EEG)、心电图 (ECG)、呼吸流量和血氧饱和度的丰富多模态记录[2](https://arxiv.org/html/2606.18506#bib.bib3)。尽管信息丰富,但临床实践常常将这些信号简化为粗略的汇总指标,如呼吸暂停低通气指数 (AHI) 或睡眠效率。虽然这些指标在临床上有用,但它们主要捕获睡眠中断的孤立组成部分,可能无法反映功能恢复背后的整合生理负担[1](https://arxiv.org/html/2606.18506#bib.bib4), [5](https://arxiv.org/html/2606.18506#bib.bib5)。

患者报告结局(PROs),包括日间嗜睡和疲劳,捕获了睡眠功能障碍的生活后果,但并不直接揭示导致恢复受损的生理系统。先前的研究报告了呼吸事件指标与主观症状负担之间仅有弱到中等的对齐[4](https://arxiv.org/html/2606.18506#bib.bib6), [3](https://arxiv.org/html/2606.18506#bib.bib7),突显了客观睡眠生理学与感知恢复之间持续存在的脱节。与此同时,最近的用于 PSG 分析的机器学习方法提高了预测性能,但通常作为针对关联而非机制洞察优化的黑盒系统运行[6](https://arxiv.org/html/2606.18506#bib.bib8), [7](https://arxiv.org/html/2606.18506#bib.bib9)。然而,在睡眠医学和互联健康中,可解释性、生理学合理性和鲁棒性对于临床信任和负责任部署至关重要。

为了解决这一差距,我们提出了一个可解释的、因果发现引导的框架,用于从多模态 PSG 推导出分层睡眠恢复评分(SRS)。我们不是依赖启发式聚合或单一指标严重度量,而是将与恢复相关的 PROs 视为结构化目标,并使用有向无环图(DAG)建模来识别恢复的候选生理驱动因素。这些机制随后通过一个两阶段筛选过程进行精炼,该过程结合了基于生理学的约束和受约束的 LLM 辅助审计,并聚合为五个生理域:呼吸负担、缺氧负担、睡眠碎片化、睡眠结构和自主调节。虽然来源于临床 PSG,但这些域与互联健康技术中日益可用的传感流自然对齐,包括可穿戴心电图、血氧测定和睡眠阶段估计设备。我们在两个独立的人群队列(MESA 和 MrOS)中评估所提出的框架。跨队列一致地,生成的 SRS 与感知恢复的对齐强度比 AHI 更大,对于某些结局改善高达 2.5 倍。通过一个透明且领域结构化的框架,将多模态睡眠生理学与以患者为中心的恢复明确联系起来,这项工作为在临床睡眠研究和新兴的智能互联健康环境中的恢复建模提供了实践基础。

贡献。

1. 1\. 可解释的多域恢复建模。我们引入了一个分层的睡眠恢复评分,通过将多模态 PSG 与患者报告的恢复结局联系起来,超越了单一呼吸指标。
2. 2\. 因果发现引导的机制识别。我们应用基于 DAG 的因果发现来识别恢复的候选生理驱动因素,并通过基于生理学的约束和受约束的 LLM 辅助审计进行精炼。
3. 3\. 支持互联健康转化的跨队列证据。在 MESA 和 MrOS 中,我们观察到五个生理域的一致收敛,并显示出与感知恢复的对齐强度比 AHI 更高,支持可解释的恢复建模,可以为未来的分布式和可穿戴传感系统提供信息。

## II 相关工作

临床睡眠评估仍然以呼吸暂停低通气指数 (AHI) 等汇总指标为主,尽管越来越多的证据表明单一呼吸指标并不能完全捕获下游生理负担或功能恢复[2](https://arxiv.org/html/2606.18506#bib.bib3), [1](https://arxiv.org/html/2606.18506#bib.bib4), [5](https://arxiv.org/html/2606.18506#bib.bib5)。患者报告结局如日间嗜睡提供了睡眠功能障碍的重要补充视角,然而先前的研究报告了主观症状负担与 PSG 衍生的呼吸指标之间仅有弱到中等的对齐[4](https://arxiv.org/html/2606.18506#bib.bib6), [3](https://arxiv.org/html/2606.18506#bib.bib7)。这些发现推动了超越单纯事件计数严重性的多域恢复模型的发展。

最近的机器学习方法,包括深度学习和基础模型方法,改进了从多模态生理信号进行睡眠分期和基于 PSG 的预测[6](https://arxiv.org/html/2606.18506#bib.bib8), [7](https://arxiv.org/html/2606.18506#bib.bib9)。然而,这些系统通常优化预测性能而非机制可解释性。因果发现方法如 NOTEARS 为识别观测数据中的结构化依赖关系提供了一种补充方法[8](https://arxiv.org/html/2606.18506#bib.bib10),但在临床环境中,学习到的图仍然需要基于机制的筛选,以避免混杂因素、代理效应和生理学上不合理的关联。与之前基于 PSG 的预测模型相比,我们的目标不仅是结局关联,还要提取反复出现的、生理学上可解释的恢复域,这些域可以支持下游的互联健康转化。我们的工作建立在这些方向的基础上,结合多模态 PSG、因果发现引导的机制识别和结构化候选筛选,以推导出用于互联健康系统的可解释恢复评分。

## III 方法论

我们通过一个结构化的因果发现流程,将 PSG 特征与恢复相关的患者报告结局联系起来,从而推导出睡眠恢复评分。如图 1 (https://arxiv.org/html/2606.18506#S0.F1) 所示,该框架包含五个步骤:(1) 结局选择,(2) 生理特征构建,(3) 有向无环图 (DAG) 估计,(4) 两阶段候选筛选,以及 (5) 分层评分合成。我们将此框架应用于两个人群队列(MESA,n=1,540 和 MrOS,n=825),使用的恢复结局包括日间嗜睡、疲劳、感知睡眠质量和感知睡眠效率。

### III-A 因果图估计

设 \(X \in \mathbb{R}^{n \times p}\) 表示跨 \(n\) 个个体测量的 \(p\) 个候选生理特征矩阵,设 \(Y_k\) 表示一个与恢复相关的 PRO。特征跨越睡眠生理学的五个域:呼吸负担、缺氧负担、睡眠碎片化、睡眠结构和自主调节。代表性变量包括:呼吸负担的 AHI 和低通气指数;缺氧负担的 SpO2 和氧减指数 (ODI);睡眠碎片化的入睡后觉醒 (WASO) 和觉醒指数;睡眠结构的 N3%、REM 潜伏期和频谱功率;自主调节的 SDNN 和 RMSSD。

对于每个结局 \(Y_k\),我们形成一个分析表 \(T_k = [X, C, Y_k]\),其中 \(C\) 包含结构性协变量,如年龄、性别、种族和教育程度。连续变量进行中位数插补和标准化,而分类协变量进行独热编码。NOTEARS 以稀疏参数 \(\lambda_1 = 0.02\) 和边权重阈值 \(\tau = 0.01\) 运行,每个结局保留前 \(k=20\) 个候选驱动因素(Fisher-Z 独立性检验,\(\alpha = 0.05\))。自举稳定性选择使用 500 次重采样;只有选择频率 \(\geq 0.6\) 的边才进入筛选阶段。

我们使用线性 NOTEARS 公式[8](https://arxiv.org/html/2606.18506#bib.bib10) 估计 \(T_k\) 中变量的稀疏 DAG:

\[
\min_{W} \frac{1}{2n} \|X - XW\|_F^2 + \lambda_1 \|W\|_1 \tag{1}
\]
受约束于 \(\mathrm{tr}\!\left(e^{W \circ W}\right) - d = 0\)

其中 \(W \in \mathbb{R}^{d \times d}\) 是加权邻接矩阵,\(\lambda_1\) 控制稀疏性,\(d\) 是建模变量的数量。我们采用线性公式以优先考虑中等样本量生物医学环境中的可解释性和稳定性,生成一个显式的稀疏依赖结构,可以在评分构建之前根据生理学进行检查和审计。

具有指向 \(Y_k\) 的有向边的特征被视为恢复的候选驱动因素。为了提高鲁棒性,我们应用自举稳定性选择,仅保留选择频率超过阈值 \(\tau\) 的边,生成一个稀疏且经过可靠性筛选的候选集。

关于因果语言的解释性说明。尽管我们在整个过程中采用因果发现的术语,但 MESA 和 MrOS 是观测性横断面队列。因此,学习到的 DAG 边反映的是条件统计依赖性,而不是已确定的因果关系。两阶段筛选流程施加了超越统计结构的领域驱动的合理性约束,但不能替代实验验证。我们有意使用“候选驱动因素”这一术语,以表明一个机制假设而非因果主张,这与因果发现在生物医学观测环境中的探索性角色一致[8](https://arxiv.org/html/2606.18506#bib.bib10)。

### III-B 两阶段候选筛选

由于因果发现可能恢复统计上有效但生理学上不合理或临床无用的关系,我们通过一个两阶段筛选过程来精炼候选驱动因素。

阶段1:基于生理学的筛选。候选边使用已建立的睡眠机制进行筛选。代表性路径包括:OSA → 缺氧 → 觉醒 → 嗜睡,N3 活动减少 → 恢复受损,以及 alpha/beta 活动升高 → 皮质过度觉醒。与已知生理学不一致的边被移除。

阶段2:受约束的 LLM 辅助审计。剩余的候选边被提交到在 `validate_with_llm.py` 中实现的结构化三类分类协议(参见代码可用性),使用受约束的 LLM 辅助审计协议。每个候选特征被分类为:(i) 合理的机制驱动因素,(ii) 结构性混杂因素(例如,种族、性别或年龄等人口学代理),或 (iii) 构建重叠泄露变量(例如,一个通过构建与 PRO 目标相关的主观测量指标)。分类由预定义的生理学和方法学标准指导,这些标准作为固定的系统级指令提供,确保所有结局的审计一致且可重复。只有被两个层都分类为类别 (i) 的特征才进入共识聚合。完整的提示模板和分类标准包含在代码库中。

跨多个恢复结局 \(\{Y_k\}_{k=1}^K\),最终保留的机制集 \(\mathcal{M}\) 通过跨结局共识聚合获得,保留在至少两个结局中出现的特征 (\(k \geq 2\))。这个多数投票步骤减少了特定结局的噪声并提高了鲁棒性。

### III-C 分层 SRS 构建

保留的特征被分组到五个生理域中:呼吸负担、缺氧负担、睡眠碎片化、睡眠结构和自主调节。对于每个域 \(d\),设 \(\mathcal{I}_d\) 表示分配给该域的保留特征子集。我们计算域评分为:

\[
Z_d = \sum_{j \in \mathcal{I}_d} \beta_j \, Z(X_j), \tag{2}
\]

其中 \(\beta_j\) 与 NOTEARS 边幅度和跨结局稳定性频率成正比,并经过归一化使得 \(\sum_{j \in \mathcal{I}_d} |\beta_j| = 1\)。特征符号进行定向,使得最终评分越高对应于更好的生理恢复。

相似文章

按部就班:使用评分规则的自动睡眠分期分类

arXiv cs.AI

本文提出了一种确定性的、基于规则的睡眠分期方法,该方法明确实现了美国睡眠医学学会(AASM)的评分规则,并提供了逐时段的自然语言解释。在50份多导睡眠图记录中,该方法与多数投票共识达到了60.5%的逐时段一致性,为不透明的深度学习模型提供了透明性的补充。

老年人身体活动与健康状况的纵向多模态感知

arXiv cs.LG

本文介绍了一项针对66名老年人的纵向多模态研究,利用可穿戴传感和临床评估来预测身体活动、睡眠时长和睡眠呼吸暂停严重程度,发现行为目标更可预测,历史特征是关键预测因素。