WISE-HAR: 一个基于WiFi的人类活动识别的可泛化集成深度学习框架
摘要
本文介绍了WISE-HAR,一个用于基于WiFi的人类活动识别的集成深度学习框架,实现了鲁棒的性能和跨场景的泛化能力,准确率下降极小。
arXiv:2606.02974v1 公告类型:新
摘要:利用WiFi信号进行人体活动识别(HAR)已成为智能家居、医疗监控、安防系统和环境辅助生活领域的一项变革性技术。与引发严重隐私问题且在弱光条件下失效的传统摄像头系统,或需要用户配合的可穿戴传感器不同,基于WiFi的HAR具有非侵入性、保护隐私、成本效益高,且在任何光照条件下都能无缝工作的优势。本文提出了一种综合方法,使用Wallhack1.8k WiFi频谱图数据集识别三种不同的人体活动:“无人存在”(空房间)、“行走”和“行走+挥手”。我们提出了三项关键改进以应对基于WiFi的HAR的主要挑战。首先,为解决性能方差大的问题,我们采用集成学习,使用五种不同的CNN架构(Deep CNN、Wide CNN、MobileNetV2、ResNet50V2和EfficientNetB0)。其次,针对数据集规模小的局限,我们应用了激进的数据增强技术,包括时间扭曲、频率掩蔽和噪声添加。第三,为评估真实世界的泛化能力,我们进行了跨场景评估(在视距上训练,在非视距上测试)和跨天线评估(在Biquad天线上训练,在PIFA天线上测试)。我们的集成模型在使用Biquad天线的视距场景下达到了94.87%的测试准确率,比最佳单一模型高出0.66%。数据增强将随机森林的性能从60%提升到95%。跨场景评估显示准确率下降极小,仅为1.37%和2.07%,展现了强大的泛化能力。结果表明,所提出的方法稳健可靠,适用于不同硬件配置的多样化环境中的实际部署。
查看缓存全文
缓存时间: 2026/06/03 09:42
# WISE-HAR: 一个基于WiFi的人体活动识别的可泛化集成深度学习框架 来源:https://arxiv.org/html/2606.02974 ###### 摘要 利用WiFi信号进行人体活动识别(HAR)已成为一项变革性技术,广泛应用于智能家居、健康监测、安防系统以及环境辅助生活。与传统基于摄像头的系统(存在严重隐私问题且在弱光条件下失效)或需要用户配合的可穿戴传感器不同,基于WiFi的HAR具有非侵入性、保护隐私、成本低廉,且能在任何光照条件下无缝工作的优点。本文提出了一种综合方法,利用Wallhack1.8k WiFi频谱图数据集识别三种不同的人体活动:“无人存在”(空房间)、“行走”以及“行走+挥手”。我们提出了三项关键改进,以应对基于WiFi的HAR面临的主要挑战。第一,针对高性能方差问题,我们实现了集成学习,采用了五种不同的CNN架构(Deep CNN、Wide CNN、MobileNetV2、ResNet50V2和EfficientNetB0)。第二,针对小数据集限制,我们应用了激进的数据增强技术,包括时间扭曲(模拟不同行走速度)、频率遮蔽(模拟信号干扰)和噪声添加(模拟真实世界环境条件)。第三,为评估真实世界的泛化能力,我们进行了跨场景评估(在视距条件下训练,在非视距条件下测试)和跨天线评估(在双频天线训练,在PIFA天线测试)。我们的集成模型在视距场景下使用双频天线取得了94.87%的测试准确率,比最佳单一模型(MobileNetV2,94.21%)高出0.66%。数据增强显著提升了随机森林的性能,从60%提高到95%,增幅高达35%。跨场景评估显示精度仅下降1.37%(视距→非视距)和2.07%(双频→PIFA),展现了出色的泛化能力。结果表明,我们提出的方法稳健、可靠,适用于不同硬件配置的真实环境部署。代码仓库:https://github.com/maheenarshad198-jpg/HAR ## I. 引言 ### I-A 背景与动机 物联网正在真正改变我们的生活和工作的方式。它革新了家庭,能体现监控系统,并提供追踪我们健康的方法。所有这些都不是未来的空想,而是现实。让这一切发挥作用的关键在于能够识别人们日常生活中的行为,而无需他们察觉。这被称为人体活动识别。 人体活动识别系统通常通过两种方式工作:使用摄像头或传感器。摄像头系统拍摄视频,然后由计算机程序来分析正在执行的动作。这些系统可以非常擅长其工作。然而,这些系统也面临多重限制: - •隐私问题:摄像头会持续录制视频每一刻。它们可能引发隐私问题,因为始终在录制,并可能侵入私人空间。 - •光照依赖:在弱光、黑暗或存在强烈阴影的情况下,摄像头性能显著下降。虽然存在夜视解决方案,但会增加成本和复杂度。 - •遮挡问题:摄像头无法穿透墙壁、家居物品或其他障碍物。此外,在光线不足的情况下(如夜间或暗室),它们也无法正常工作,这导致可靠性差。 - •计算需求:视频处理需要大量的计算能力,这难以实时完成。 基于传感器的系统使用可穿戴设备,例如智能手表。这些设备可以判断人是否在移动。但它们也存在局限性,例如: - •用户配合:用户需要负责佩戴并为其充电。这种责任对于老年人和儿童来说不太可能实现。 - •不适感:在涉及水或热的繁重家务或剧烈活动中使用这些设备是不切实际的。 - •维护:设备的保养和维护,如更换电池、充电和专业校准。 - •成本:高质量的可穿戴传感器可能价格昂贵,尤其是在多个家庭成员都需要的情况下。 ### I-B 基于WiFi的活动识别:范式转变 基于WiFi的HAR提供了一种强大的替代方案,解决了基于视觉和可穿戴系统许多局限性。由于几乎每个家庭、办公室或商业场所都已经有现成的WiFi信号,它被视为一种免费的感知资源,因为WiFi信号为了互联网连接而持续传输。 基于WiFi的HAR的基本原理是人体以可预测的方式与WiFi信号相互作用。当一个人行走、挥手、坐下、站立、跌倒或执行任何其他活动时,他们会吸收、反射、衍射和散射WiFi信号。这些相互作用在接收信号强度和信道状态信息中产生独特的模式。通过使用机器学习和深度学习算法分析这些模式,我们可以在无需专用传感器或摄像头的情况下检测和分类人体活动。 我们在本研究中使用的Wallhack1.8k数据集包含了WiFi信号的图片。这些图片被称为频谱图。它们帮助我们可视化随时间变化的WiFi信号。当我们谈论利用WiFi识别人们的行为时,这些频谱图非常有用。它们告诉我们人们如何移动以及他们在做什么。人们不同的行为会在这些频谱图上产生不同的模式。这意味着我们可以使用计算机来查看这些图片并判断人们的行为。Wallhack1.8k数据集就是这些WiFi信号频谱图的集合。 ### I-C 问题陈述与研究挑战 基于WiFi的人体活动识别系统潜力巨大。但在真实世界部署之前,还需要解决一些重大问题。 #### I-C1 挑战1:高性能方差 第一个问题是不同的机器学习模型在分析相同数据时会产生不同的结果。有些模型非常擅长识别随时间变化的模式,有些擅长识别信号频率中的模式,还有些擅长识别信号在空间中传播的模式。依赖单一模型只会发挥其优点,也会暴露其缺点。如果该模型在遇到某种活动类型或在特定环境中失效,整个系统就会失败。这是一个问题,因为系统的性能可能因我们使用的模型不同而产生很大差异。 #### I-C2 挑战2:小数据集规模 第二个问题是可用的数据集有限,无法充分训练我们的模型。深度学习模型,尤其是那些使用卷积神经网络的模型,需要大量数据才能学会它们应该做的事情。我们使用的名为Wallhack1.8k的数据集,每种活动类型只有大约400到500个样本。这远小于通常用于学习的数据库,比如拥有1400万张图片的ImageNet。当数据不足时,我们的模型开始记忆训练样本,而不是学习可以应用到新情况的通用规则。这意味着它们在训练数据上的测试结果会很好,但在真实世界中使用时会表现很差。 #### I-C3 挑战3:跨条件泛化能力差 第三个问题是当条件发生变化时,我们的模型表现不佳。大多数情况下,当测试基于WiFi的人体活动识别系统时,我们会在同一个房间、相同家具和相同天线条件下进行所有测试。而在现实世界中,情况并非总是一成不变。一个人可能会从能看到WiFi路由器的地方移动到看不到的地方。模型必须能够在所有这些情况下工作。目前,当条件改变时,我们的模型表现不佳,精度可能会从超过90%下降到几乎随机猜测的水平。 ### I-D 我们的贡献 本文通过三项新颖的改进来解决这三个挑战: 1. 改进1——集成方法降低方差:我们不依赖单一模型,而是训练五种具有互补优势的CNN架构。我们通过软投票(平均概率分数)来组合它们的预测。这种集成方法降低了方差,因为不同的模型会犯不同的错误。当一个模型分类错误时,其他模型通常能正确分类,从而得到更稳健可靠的结果。 2. 改进2——数据增强应对小数据集:我们应用激进的数据增强技术,生成现有训练样本的真实变体。这些技术包括时间扭曲(通过旋转和移动频谱图模拟不同行走速度)、频率遮蔽(通过移动频率内容模拟信号干扰)和噪声添加(模拟真实世界环境噪声、其他设备干扰和硬件缺陷)。每个原始图像生成5-10个增强版本,有效地将训练数据集从约400个样本增加到2000-4000个样本。 3. 改进3——跨场景评估测试泛化能力:我们在三种不同的测试条件下系统评估我们的模型:(a) 相同场景(视距→视距)建立基线性能,(b) 跨场景(视距→非视距)测试在不同环境条件下的泛化能力,(c) 跨天线(双频→PIFA)测试在不同硬件配置下的泛化能力。这种综合评估为真实世界部署提供了现实的性能估计。 ### I-E 论文组织 本文的其余部分组织如下:第二节回顾了WiFi感知、深度学习用于HAR以及集成方法的相关工作。第三节详细描述了我们的方法,包括数据预处理、模型架构、集成技术、数据增强策略和跨场景评估协议。第四节展示了我们的实验结果,包括定量准确率比较、混淆矩阵和泛化分析。第五节讨论了我们的发现的含义、当前研究的局限性以及未来研究方向。第六节总结全文并概括我们的关键贡献。 ## II. 相关工作 ### II-A 基于WiFi的感知:历史发展 将WiFi信号用于感知应用可以追溯到2010年代初。研究人员观察到,人类存在和移动以可预测的方式影响接收信号强度(RSS)。早期系统利用RSS变化来检测存在、计算人数以及识别粗略活动,如坐、站和走。 一个重大突破来自商用WiFi网卡提供的信道状态信息(CSI)。与提供单一聚合信号强度度量的RSS不同,CSI提供了每个子载波频率如何受信道影响的细粒度信息。CSI包含多个子载波的幅度和相位信息,提供了关于环境的丰富数据。 ### II-B 基于WiFi的HAR的关键论文 Pu等人[1 (https://arxiv.org/html/2606.02974#bib.bib1)]提出了WiSee,这是一个利用WiFi信号中多普勒频移来识别九种不同全身手势的系统。WiSee在受控环境中达到了超过94%的准确率,但需要专用硬件和仔细校准。 Wang等人[2 (https://arxiv.org/html/2606.02974#bib.bib2)]开发了WiFall,一个利用WiFi信号的跌倒检测系统。WiFall使用CSI检测跌倒并将其与其他活动区分开来。该系统在检测跌倒方面达到了90%的准确率,但假阳性率较高。 Guo等人[3 (https://arxiv.org/html/2606.02974#bib.bib3)]发布了WiAR,这是首批用于基于WiFi的活动识别的公开数据集之一。WiAR包含来自不同环境中多位志愿者的六种活动的WiFi CSI数据。公共数据集的可用性加速了这一领域的研究。 Yousefi等人[4 (https://arxiv.org/html/2606.02974#bib.bib4)]提供了利用WiFi CSI进行行为识别的全面综述。该综述指出了关键挑战,包括环境敏感性、硬件依赖性和数据集的规模有限。 ### II-C 用于HAR的深度学习 近年来,深度学习在HAR任务中得到了广泛应用。卷积神经网络(CNN)特别适合频谱图分析,因为频谱图本质上就是图像。 Sandler等人[5 (https://arxiv.org/html/2606.02974#bib.bib5)]引入了MobileNetV2,这是一种为移动和嵌入式设备设计的轻量级CNN架构。MobileNetV2使用深度可分离卷积来降低计算需求,同时保持准确率。这使得它非常适合资源受限设备上的实时应用。 He等人[6 (https://arxiv.org/html/2606.02974#bib.bib6)]开发了带有跳跃连接的残差网络(ResNet),能够训练非常深的网络(最多152层)而不会出现梯度消失问题。ResNet50V2是一个50层的变体,在ImageNet上取得了最先进的性能。 Tan和Le[8 (https://arxiv.org/html/2606.02974#bib.bib8)]提出了EfficientNet,它使用复合系数同时缩放网络深度、宽度和分辨率。EfficientNetB0以更少的参数实现了比先前模型更高的准确率。 ### II-D 机器学习中的集成方法 集成学习结合多个模型以获得比任何单一模型更好的性能。Dietterich[7 (https://arxiv.org/html/2606.02974#bib.bib7)]提供了集成方法的全面概述,包括Bagging、Boosting和Stacking。 Bagging(Bootstrap聚合)在训练数据的不同随机子集上训练多个模型,并平均它们的预测。随机森林是Bagging应用于决策树的经典例子。 Boosting顺序训练模型,每个新模型都关注先前模型所犯的错误。AdaBoost和梯度提升是流行的Boosting算法。 Stacking训练一个元模型,学习如何最好地组合基模型的预测。 我们的集成使用一种简单但有效的方法:训练五种具有不同超参数的CNN架构,并平均它们的概率输出(软投票)。 ### II-E 面向小数据集的数据增强 数据增强是一种通过修改现有数据来生成数据的方法。这在数据不足时很有帮助。Shorten和Khoshgoftaar报告了深度学习中数据增强的方法。对于图像数据,常见的增强包括: - •旋转(稍微转动图像) - •平移(将图像向上、下、左或右移动) - •缩放(使图像变大或变小) - •翻转(水平或垂直翻转图像) - •调整亮度和对比度 - •添加噪声(静态或随机点) - •模糊(高斯模糊、中值模糊) - •改变颜色 在处理频谱图数据时,一些增强包括:时间扭曲(拉伸或压缩)
相似文章
使用WiFi感知人类 – Ruview
关于使用WiFi信号感知人类存在、运动和生命体征的技术综述
SHARP:基于睡眠的层次化加速重放用于长程非平稳时序模式识别
SHARP 提出了一种受生物学启发的框架,将记忆积累与模式识别分离,在离线睡眠阶段使用加速重放来学习流式环境中的长程非平稳时序模式。它在 text8 和 PG-19 上提升了上下文保持能力,同时保持了计算效率。
EDU-CIRCUIT-HW:评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现
本文介绍了 EDU-CIRCUIT-HW 数据集,用于评估多模态大语言模型在真实大学级 STEM 手写解答上的表现,揭示了显著的识别局限性,并提出了一种结合自动化识别与极少人工监督的混合方法,以增强评分的鲁棒性。
CSI-JEPA:面向最小监督下泛在感知的基础表征
CSI-JEPA是一个自监督框架,从无标签的Wi-Fi信道状态信息中学习可复用的表征,实现标签高效的多任务感知。它能节省高达98%的标签,并优于监督模型。
Dywave:面向异构物联网传感信号的事件对齐动态分词框架
Dywave 是一个面向物联网传感信号的动态分词框架,利用基于小波的层次分解将分词与语义事件对齐,在五个真实数据集上实现了高达12%的准确率提升和75%的输入分词长度缩减。