Dywave:面向异构物联网传感信号的事件对齐动态分词框架
摘要
Dywave 是一个面向物联网传感信号的动态分词框架,利用基于小波的层次分解将分词与语义事件对齐,在五个真实数据集上实现了高达12%的准确率提升和75%的输入分词长度缩减。
查看缓存全文
缓存时间: 2026/05/15 06:26
# 面向异构物联网传感信号的事件对齐动态分词技术 来源:https://arxiv.org/html/2605.14014 Denizhan Kara, Jinyang Li, Hongjue Zhao, Yigong Hu, Yizhuo Chen, Xiaomin Ouyang, Shengzhong Liu, Tarek Abdelzaher
###### 摘要
物联网系统持续从无处不在的传感器收集异构传感信号,以支持人类活动分析、情绪监测和环境感知等智能应用。这些信号本质上是非平稳和多尺度的,给标准分词技术带来了独特挑战。本文提出Dywave,一种针对物联网传感信号的动态分词框架,该框架构建与内在时间结构和底层物理事件对齐的紧凑输入表示。Dywave利用基于小波的层次分解,识别与底层语义事件相对应的有意义的时间边界,并在保持时间连贯性的同时自适应压缩冗余区间。在涵盖活动识别、压力评估和附近物体检测的五个真实物联网传感数据集上的广泛评估表明,Dywave在准确率上比最先进方法高出最高12%,同时通过将主流序列模型的输入标记长度减少最高75%来提高计算效率。此外,Dywave在领域偏移和变化序列长度方面表现出更强的鲁棒性。
机器学习, ICML
## 1 引言
物联网系统越来越依赖连续的传感模态流,例如用于人类活动识别的惯性测量单元(Korany et al., 2019; Kawano et al., 2023; Wang et al., 2022),用于医疗的心电图(Nath et al., 2023; Alharbi et al., 2023; Zakaria et al., 2023),以及增强环境感知以提高人类安全性的声学信号(Wang et al., 2023b; Kim et al., 2023; Kimura et al., 2024)。从这些多样信号中学习使得智能感知应用能够感知、理解和响应物理世界(Baris et al., 2025)。
语言和视觉领域的最新进展凸显了数据分词在实现大规模可泛化模型中的核心作用(Petrov et al., 2023; Bommasani et al., 2021)。在自然语言处理中,词和子词构成语言学和统计上合理的离散标记(Sennrich et al., 2016; Kudo & Richardson, 2018),而在视觉中,空间块作为与模型归纳偏置对齐的局部标记(He et al., 2016; Dosovitskiy et al., 2020)。这些分词方案为大规模训练、零样本迁移和任务泛化建立了共享表示接口(Ahia et al.; Tao et al., 2024)。相比之下,物联网传感应用中的原始信号对人类来说往往不直观,并且缺乏类似的自然语义单元概念。与词语或图像不同,信号表现为连续波形,具有时间异质性,信息编码在底层物理事件之间的转换以及多尺度交互中(例如快速瞬变与缓慢上下文趋势重叠)。传感信号缺乏适当的原子单元造成了一个**分词鸿沟**,迫使现有方法依赖均匀窗口将信号分割成**块**作为下游骨干网络的输入标记(Nie et al., 2023; Naghashi et al., 2025; Ekambaram et al., 2023)。这里,我们将**均匀分块**视为一种方法,它将信号划分为固定大小的块,要么在单一时间尺度(Nie et al., 2023)上,要么在多个分辨率(Naghashi et al., 2025; Wang et al., 2024)上。由于这些窗口是预设的,它们的边界本质上与内容无关,并且通常与底层信号动态不对齐。
参见图注
图1:Ego4D (HAR) 原始信号示例。信号事件已用红色边界框手动标注。
局限性:尽管对应均匀窗口的标记提供了一种简单的启发式方法,但它与物理事件的内在动态结构仍然未对齐,因为物理事件很少遵循均匀的时间尺度。这导致事件碎片化和底层语义模糊。例如,在使用 IMU 信号进行人类活动识别时,短暂的动作手势(例如挥手)可能在一秒内发生,而复杂活动(例如行走)可能持续数十秒并且强度会变化。此外,真实世界信号表现出高度不规则的信息密度,静止间隔与短暂的高显著活动爆发交替出现。均匀分块会在冗长的冗余区间产生大量贡献信息很少的块,导致计算资源在信息丰富和非信息丰富区域之间平均分配、输入长度急剧膨胀以及关键过渡区表示能力有限。最后,最佳超参数(例如块大小和步长)是特定于应用的。较小的步长保留了细粒度细节,但会使序列长度和计算成本爆炸性增长,而较大的非重叠块可以在牺牲语义精度的代价下压缩计算。性能在这些设置之间呈现不规则波动,揭示了缺乏普遍有效的配置,并且需要进行耗时的逐领域调参。
方法论:我们认为,对传感信号进行有效建模需要将**输入分词**重新视为一个动态过程,而非预设的固定启发式方法。我们不主张对时间序列进行均匀分割或修改骨干网络架构,而是提出 Dywave,一种**动态的、事件对齐的分词**方案,它适应物理信号的内在时间结构,并且与主流骨干编码器兼容。为实现此目标,Dywave 首先通过显式利用物理事件的尺度分离结构来提取**层次化嵌入**。这些结构使 Dywave 能够利用多分辨率时间模式,而不是将信号视为同质序列。在这些嵌入的基础上,Dywave 执行**时间锚点形成**,通过估计哪些时间步最为显著,并选择在对应有意义事件的语义转换处的锚点。最后,Dywave 应用**动态时间融合**,通过显著性加权池化将相邻时间步聚合到与锚点对齐的标记中。这产生了紧凑的表示,其长度适应语义复杂度而非原始信号持续时间。
评估:我们在五个多样化的真实传感数据集上评估 Dywave,这些数据集涵盖了不同的采样率、序列长度和时间动态。Dywave 通过聚焦于语义有意义的区间来减轻碎片化和截断问题。此外,我们展示了 Dywave 如何将复杂的人类活动分解为细粒度的微活动片段,揭示了以人为中心的连续传感器信号的底层时间结构。贡献总结如下:
- • 我们识别了物理感知中的**分词鸿沟**,强调了缺乏人类直观语义单元的问题。
- • 我们提出了 Dywave,一个动态分词模块,将原始信号转换为紧凑的、事件对齐的标记。
- • 通过在真实应用上的广泛评估以及一个案例研究,展示了 Dywave 优越的下游性能和细粒度事件分解能力。
## 2 动机与设计原则
本节概述传感信号分词中的挑战,并介绍 Dywave 背后的设计原则。
### 2.1 挑战与动机
与语言中的词语或视觉中的物体不同,传感信号表现为连续波形,事件语义分散在时间中并编码在转换中。现有方法将这些流均匀地分割成预设窗口。然而,这些分割很少对应于连贯的物理事件或人类动作,因为时间动态通常是不规则的且依赖于上下文,这引入了独特的挑战。
参见图注
图2:Dywave 概述。
信号异构性与复杂性:真实世界的传感数据在用户、上下文和模态之间极其多样。即使执行相同的活动,不同用户产生的信号在时间结构和强度上也差异很大。为了说明这种变异性,图1可视化了来自 Ego4D 人类活动识别数据集(Grauman et al., 2022)的30秒加速度计样本,比较了不同用户和时间段内"清洁"活动的信号,以及"阅读"活动。即使在同一活动内部,不同用户之间以及同一用户的不同会话之间,信号模式也存在显著差异。例如,用户1的两个清洁片段显示出不同的运动节奏,而用户2的清洁活动表现出更剧烈、更强烈的运动。相反,用户3的阅读活动主要由长时间的静止间隔主导,仅在开头有短暂的运动爆发。这些变化凸显了传感数据的非平稳性和用户依赖性,其中活动语义与个体上下文紧密耦合。在这种多样性下应用均匀分块会忽略信号特定语义,产生无法与真实事件边界对齐或无法在相似活动之间保持连贯性的任意分割。
计算效率:除了表示粒度之外,均匀分块窗口还限制了计算效率。在具有严格延迟和能量约束的普适计算系统中,均匀分块平等地对待所有区域,为动态和冗余片段分配相同的计算量。如图1所示,用户3阅读活动中冗长的平坦区间占主导地位。然而,均匀分词会扩展语义内容极少的区间,不必要地增加输入长度和计算成本。
### 2.2 传感信号分词的设计原则
上述挑战揭示了均匀分块在处理异构、非平稳传感信号时的局限性,并强调了需要一种超越静态均匀窗口的动态分词技术。从这些观察中,我们推导出有效分段时间序列传感信号的两个设计原则。
原则1:物理基础。传感信号源于连续的物理过程,语义产生于底层物理状态之间的转换。因此,分词必须保持物理连贯性,以确保每个标记对应一个不同的、有意义的物理事件,而不是任意的时间切片。基于物理基础的表示应保持事件关系的时间连续性,以推断动态传感信号的上下文一致语义。
原则2:跨尺度和领域的自适应性。传感信号是多尺度的,并表现出强烈的时间异质性,快速的瞬变尖峰与漫长的渐变动态共存。因此,有效的分词策略应通过为信息密集事件分配更细粒度、为稳定片段分配更粗粒度来平衡时间和语义分辨率。此外,分词策略应在每个样本基础上自适应,而不是假设跨片段具有同质的时间结构。
通过遵循这些原则,针对传感信号的动态分词可以将原始传感器流转换为结构化的、语义对齐的表示,从而实现更鲁棒和高效的下游学习。
## 3 Dywave 设计
本节介绍 Dywave,一个适应信号底层时间结构的动态分词模块。我们在图2中提供了 Dywave 的详细概述。
问题形式化:设 \(X \in \mathbb{R}^{C \times L}\) 表示一个原始时间序列片段,其中 \(C\) 是通道数,\(L\) 是序列长度。Dywave 的目标是将 \(X\) 转换为一个紧凑的分块标记序列 \(E \in \mathbb{R}^{C \times L' \times d}\),其中 \(L'\) 取决于样本语义。
### 3.1 层次化嵌入
真实世界的时间序列信号在时间和频率尺度上表现出多粒度结构。为了捕捉这一点,我们应用**最大重叠离散小波变换**(MODWT) (Percival & Walden, 2000) 将原始输入分解为多分辨率时频表示。对于一个输入 \(X \in \mathbb{R}^{C \times L}\),MODWT 产生:
\[\{dX_1,\ldots,dX_J, A\} = \text{MODWT}(X), \quad (1)\]
其中 \(A \in \mathbb{R}^{C \times L}\) 编码长期全局趋势,\(dX_1 \in \mathbb{R}^{C \times L}\) 捕捉最高频变化,\(\{dX_j\}_{j \geq 2}\) 表示逐渐变慢的振荡。由于 MODWT 是未降采样的,所有分量都保持原始序列长度 \(L\)。
接下来,我们将分量划分为细节流和上下文流,并提取捕捉细粒度瞬变和长期时间结构的层次化嵌入。
**细节嵌入**。细节流捕捉局部的高频变化。我们使用轻量级卷积层对其进行投影,这些卷积层在保持时间对齐的同时建模短程依赖关系。
\[E^U = \text{DetailEncoder}(\{X, dX_1,\dots,dX_K\}). \quad (2)\]
**上下文嵌入**。上下文嵌入通过一个轻量级的沙漏型变换器(作为上下文编码器)编码慢变、长程模式,该变换器执行降采样、自注意力和升采样。降采样程度自适应选择以平衡模型容量和计算成本。
\[E^V = \text{ContextEncoder}(\{dX_{K+1},\dots,dX_J, A\}). \quad (3)\]
**嵌入融合**。我们沿特征维度融合细节和上下文嵌入,形成统一的层次化嵌入 \(E^F = \text{Concat}(E^U, E^V)\),该嵌入在时间上对齐且在语义上丰富,适用于下游任务。
### 3.2 时间锚点形成
Dywave 不将分割视为显式目标,而是基于内在信号动态自适应地分配时间分辨率。给定同时编码细粒度瞬变和长程上下文的层次化嵌入,Dywave 识别出表示细节的区域...相似文章
Dystruct:基于贝叶斯推理的动态结构化扩散语言模型解码
DyStruct 是一种无需训练的贝叶斯解码框架,专为离散扩散语言模型设计。它通过动态确定扩展规模和解码顺序来实现灵活长度生成,从而提高了数学和代码任务的准确性。
Wavelr
<p> 可再生能源投资的 AI 原生决策智能 </p> <p> <a href="https://www.producthunt.com/products/wavelr?utm_campaign=producthunt-atom-posts-feed&amp;utm_medium=rss-feed&amp;utmsource=producthunt-atom-posts-feed">Discussion</a> | <a href="https://www.producthunt.com/r/p/1124835?app_id=339">Link</a> </p>
针对数据中心的攻击、各种尺寸的Qwen3.5、DeepSeek与华为的合作、Apple的多模态分词器
Andrew Ng的时事通讯涵盖了近期AI发展,包括针对数据中心的攻击、各种尺寸的Qwen3.5的发布、DeepSeek与华为的合作、Apple的多模态分词器,以及对AI驱动的就业不确定性和地缘政治风险的反思。
WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力
WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。
(1D) 有序词元实现高效测试时搜索
# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始