PilotWiMAE:面向无线信道的导频原生表示学习
摘要
PilotWiMAE提出了一种自监督框架,直接接收含噪的导频观测进行无线信道表示学习,消除了不切实际的全CSI假设,并实现了优于监督基线的鲁棒跨频波束选择和信道估计。
arXiv:2605.22856v1 公告类型:cross
摘要:信道基础模型假设可以访问完全观测的信道,这一假设在部署中并不成立。我们提出PilotWiMAE,一种自监督框架,其编码器直接接收含噪的导频观测,并且其注意力机制沿着分离时间处理与联合时空频率处理的轴进行分解,这是受问题物理特性启发的归纳偏置。导频输入将观测空间缩小了两个数量级,同时消除了全CSI可用性的不切实际假设,并降低了延迟。分解设计通过利用可分离的信道结构生成鲁棒的表示,并允许预训练掩码率达到$99\%$。我们将捕捉小尺度衰落结构的块归一化重建与恢复大尺度衰落特征的辅助尺度损失相结合,并使用AWGN课程学习来匹配预训练和部署时的导频噪声。仅在$3.5$\,GHz上预训练,并在$28$\,GHz上的分布内和分布外设置中进行评估,PilotWiMAE的跨频波束选择和信道表征在更小的观测空间上仍然优于监督基线。为了减弱解码器能力与表示质量之间的耦合,我们进一步提出在编码器-解码器联合预训练之后进行以解码器为中心的预训练阶段,这使得PilotWiMAE能够在不牺牲表示质量的情况下展示出具有竞争力的信道估计。为了促进该方向的进一步研究,我们发布了PilotWiMAE的预训练权重和训练流程,以及基于Sionna的射线追踪信道生成工具CSIGen和本工作中使用的信道数据集。
查看缓存全文
缓存时间: 2026/05/25 09:02
# PilotWiMAE:面向无线信道的导频原生表示学习 来源:https://arxiv.org/html/2605.22856 Berkay Guler、Giovanni Geraci 和 Hamid Jafarkhani B. Guler 和 H. Jafarkhani 就职于加州大学欧文分校普适通信与计算中心,美国加州。他们部分得到 NSF 奖 CNS-2229467 的支持。 G. Geraci 就职于诺基亚和西班牙庞培法布拉大学。他部分得到资助 PID2021-123999OB-I00、PID2024-156488OB-I00、CEX2021-001195-M 和 CNS2023-145384 的支持。 本文部分结果已提交至国际机器学习大会 (ICML) 的 AI4NextG 研讨会,该研讨会为非存档性质,不会出版论文集 [19 (https://arxiv.org/html/2605.22856#bib.bib40)]。 ###### 摘要 信道基础模型假设能够获取完全观测的信道,然而这一假设在部署中并不成立。我们提出 PilotWiMAE,这是一个自监督框架,其编码器直接摄取有噪声的导频观测,其注意力机制沿着时间轴与联合空间-频率处理轴进行因式分解——这一归纳偏差源于问题的物理特性。导频输入将观测空间缩小了多达两个数量级,同时消除了完全 CSI 这一不切实际的假设,并降低了延迟。因式分解的设计通过利用可分离的信道结构生成鲁棒的表示,并允许预训练掩码率达到 99%。我们将捕获小尺度衰落结构的块归一化重建与一个辅助的尺度损失配对,该损失用于恢复大尺度衰落特征,并使用 AWGN 课程来匹配预训练和部署时的导频噪声。仅在 3.5GHz 上预训练,并在 28GHz 上进行分布内和分布外评估,PilotWiMAE 的跨频率波束选择与信道表征超越了监督基线,尽管其观测空间更小。为了削弱解码器容量与表示质量之间的耦合,我们进一步在编码器-解码器联合预训练之后引入了一个以解码器为中心的预训练阶段,这使得 PilotWiMAE 能够在牺牲表示质量的前提下展示出有竞争力的信道估计能力。为了推动这一方向的进一步研究,我们发布了 PilotWiMAE 的预训练权重和训练流程,以及基于 Sionna 的射线追踪信道生成工具 CSIGen 和本文所使用的信道数据集。 ## I 引言 近年来,信道基础模型通过预训练和评估由随机或射线追踪仿真器生成的全观测信道,在学习无线信道的可迁移表示方面取得了实质性进展 [5 (https://arxiv.org/html/2605.22856#bib.bib20),25 (https://arxiv.org/html/2605.22856#bib.bib19),24 (https://arxiv.org/html/2605.22856#bib.bib14),27 (https://arxiv.org/html/2605.22856#bib.bib17),6 (https://arxiv.org/html/2605.22856#bib.bib22),38 (https://arxiv.org/html/2605.22856#bib.bib21),29 (https://arxiv.org/html/2605.22856#bib.bib18),18 (https://arxiv.org/html/2605.22856#bib.bib15),30 (https://arxiv.org/html/2605.22856#bib.bib16),37 (https://arxiv.org/html/2605.22856#bib.bib25),34 (https://arxiv.org/html/2605.22856#bib.bib13),32 (https://arxiv.org/html/2605.22856#bib.bib10),43 (https://arxiv.org/html/2605.22856#bib.bib9),28 (https://arxiv.org/html/2605.22856#bib.bib11),4 (https://arxiv.org/html/2605.22856#bib.bib7),20 (https://arxiv.org/html/2605.22856#bib.bib12),42 (https://arxiv.org/html/2605.22856#bib.bib8)]。其中一些工作将独立同分布的高斯白噪声添加到全观测信道中,作为对现实性的妥协 [24 (https://arxiv.org/html/2605.22856#bib.bib14),18 (https://arxiv.org/html/2605.22856#bib.bib15),30 (https://arxiv.org/html/2605.22856#bib.bib16),27 (https://arxiv.org/html/2605.22856#bib.bib17),29 (https://arxiv.org/html/2605.22856#bib.bib18),5 (https://arxiv.org/html/2605.22856#bib.bib20),38 (https://arxiv.org/html/2605.22856#bib.bib21),6 (https://arxiv.org/html/2605.22856#bib.bib22),28 (https://arxiv.org/html/2605.22856#bib.bib11),20 (https://arxiv.org/html/2605.22856#bib.bib12),42 (https://arxiv.org/html/2605.22856#bib.bib8),4 (https://arxiv.org/html/2605.22856#bib.bib7)],而另一些工作则完全省略了噪声评估。这两种情况都不能反映信道状态信息 (CSI) 误差在实际中是如何产生的。在真实的接收机中,信道是通过导频估计得到的,只有导频资源元素上的误差是独立同分布的高斯白噪声(当不存在导频复用引起的干扰时)[17 (https://arxiv.org/html/2605.22856#bib.bib35)]。非导频资源元素(占网格的绝大多数)上的误差取决于插值方法、信道的时延-多普勒结构、导频密度、导频处的信噪比以及导频设计,并且不能简单地用独立同分布模型来描述 [12 (https://arxiv.org/html/2605.22856#bib.bib34)]。因此,在全观测或独立同分布扰动信道下的评估,只能表征模型学习信道结构的能力,而无法揭示其在信道永远不可用的系统中的行为。考虑到学习方法对噪声和分布偏移的已知敏感性 [22 (https://arxiv.org/html/2605.22856#bib.bib23),35 (https://arxiv.org/html/2605.22856#bib.bib24)],这一差距值得弥补。 第二个差距涉及部署成本。无线基础模型在很大程度上继承了视觉和语言领域的 Transformer 架构 [36 (https://arxiv.org/html/2605.22856#bib.bib26),15 (https://arxiv.org/html/2605.22856#bib.bib27)] 和训练方法 [14 (https://arxiv.org/html/2605.22856#bib.bib28),21 (https://arxiv.org/html/2605.22856#bib.bib29)],在这些领域中,参数量和序列长度不存在严格的运行时间上限,并且性能会随着数据和计算量的增加而可预测地提升 [26 (https://arxiv.org/html/2605.22856#bib.bib30),23 (https://arxiv.org/html/2605.22856#bib.bib32),40 (https://arxiv.org/html/2605.22856#bib.bib31)]。而在无线系统中,诸如预编码、调度和解码等任务必须在毫秒级或更短的时隙级时间预算内完成 [2 (https://arxiv.org/html/2605.22856#bib.bib33)]。然而,信道基础模型文献中很少报告计算开销。即使有报告,结果也往往依赖于高端 GPU 和非统一的优化堆栈(例如量化或 FlashAttention [13 (https://arxiv.org/html/2605.22856#bib.bib2)]),这使得大型模型看起来实用,掩盖了真实的部署成本。 请参阅图注 图 1:PilotWiMAE 高级流程:模型直接消耗稀疏有噪声的导频观测,导频表示支持无需信道估计或解码的直接决策任务,而可选的解码器则重建完整信道以用于估计和/或预测。 我们通过两个同等重要的设计原则来弥补这两个差距。首先,我们追求“设计即鲁棒”,直接对稀疏、有噪声的导频观测进行操作。我们的方法从关键路径中移除了显式的信道估计器,以防止在现实低信噪比下误差传播,匹配部署可观测性,消除了先前信道基础模型的全 CSI 假设,并与现有的基于导频的协议无缝集成。信道恢复被定位为同一学习表示上的下游任务,并且与我们基于重建的预训练目标自然对齐。其次,我们通过将注意力机制沿时间和空间-频率域进行因式分解来强制执行“设计即无线特异性”,这是一种基于广义平稳非相关散射 (WSSUS) 模型 [9 (https://arxiv.org/html/2605.22856#bib.bib38)] 及其 MIMO 扩展 [31 (https://arxiv.org/html/2605.22856#bib.bib39)] 的归纳偏差,在该模型中,时间和频谱-空间相关性源于不同的物理机制。同样的原则也激励了我们的预训练目标,该目标将用于小尺度衰落的小块归一化重建与用于恢复大尺度衰落统计量的辅助尺度损失配对。总体而言,导频输入缩小了观测空间,而因式分解设计则利用可分离的信道结构来支持激进的 99% 预训练掩码率。这两者共同实现了亚毫秒级的推理延迟,以及在噪声、部分观测(决策实际上是在此做出)环境下仍然可靠的表示。图 1 (https://arxiv.org/html/2605.22856#S1.F1) 提供了这个面向部署的流程的高级总结。接下来,我们将 PilotWiMAE 与近期工作进行对比。 ### I-A 相关工作 关于无线信道基础模型的先前工作大致采用 (i) 联合嵌入方法,包括对比学习 [25 (https://arxiv.org/html/2605.22856#bib.bib19),18 (https://arxiv.org/html/2605.22856#bib.bib15),32 (https://arxiv.org/html/2605.22856#bib.bib10),33 (https://arxiv.org/html/2605.22856#bib.bib3),11 (https://arxiv.org/html/2605.22856#bib.bib4)]、(ii) 掩码重建学习 [24 (https://arxiv.org/html/2605.22856#bib.bib14),18 (https://arxiv.org/html/2605.22856#bib.bib15),5 (https://arxiv.org/html/2605.22856#bib.bib20),6 (https://arxiv.org/html/2605.22856#bib.bib22),38 (https://arxiv.org/html/2605.22856#bib.bib21),28 (https://arxiv.org/html/2605.22856#bib.bib11),32 (https://arxiv.org/html/2605.22856#bib.bib10),4 (https://arxiv.org/html/2605.22856#bib.bib7),27 (https://arxiv.org/html/2605.22856#bib.bib17)] 以及 (iii) 联合重建-对比目标 [32 (https://arxiv.org/html/2605.22856#bib.bib10),18 (https://arxiv.org/html/2605.22856#bib.bib15)]。除了这些以编码器为中心的方法,还有一条独立的研究路线采用仅解码器的因果生成来进行时间预测和预报 [34 (https://arxiv.org/html/2605.22856#bib.bib13),29 (https://arxiv.org/html/2605.22856#bib.bib18),43 (https://arxiv.org/html/2605.22856#bib.bib9)]。尽管对于序列生成有效,但仅解码器模型并非以编码器为基础的表示学习器,因为它们不直接暴露用于下游适应的紧凑、任务无关的表示。因此,我们关注以编码器为基础的自监督流程。 这种关注仍然留下了重要的设计选择。对比目标可以学习可迁移的无线特征,但它们通常需要在每次更新前进行多次增强视图和前向传播,并且其性能高度依赖于视图构建以及正/负样本 [25 (https://arxiv.org/html/2605.22856#bib.bib19),18 (https://arxiv.org/html/2605.22856#bib.bib15),32 (https://arxiv.org/html/2605.22856#bib.bib10)]。非对比的联合嵌入方法,例如在掩码潜变量上使用类似 JEPA 的预测器 [11 (https://arxiv.org/html/2605.22856#bib.bib4),33 (https://arxiv.org/html/2605.22856#bib.bib3)],避免显式的负样本对,并且通常依赖于掩码上下文预测的一致性,而不是手工制作的增强流程,但出于同样的原因,它们并不显式学习面向重建的特征。然而,在无线领域,信道重建任务是第一等的下游目标。预训练目标塑造的表示应该保留恢复信道本身所需的信号结构,而不仅仅是抽象的潜变量不变性,这是可取的。 在重建学习内部,类似 BERT [14 (https://arxiv.org/html/2605.22856#bib.bib28)] 的掩码建模将密集序列馈送到编码器,同时处理掩码和可见令牌,并使用轻量级头仅预测掩码位置 [5 (https://arxiv.org/html/2605.22856#bib.bib20),38 (https://arxiv.org/html/2605.22856#bib.bib21),32 (https://arxiv.org/html/2605.22856#bib.bib10),6 (https://arxiv.org/html/2605.22856#bib.bib22)]。然而,这种范式在掩码比率较高时扩展性较差,因为编码器仍然处理不包含观测内容的掩码令牌。MAE 风格的预训练绕过了这些限制。编码器仅处理可见令牌,而 Transformer 解码器从编码的可见令牌和掩码占位符重建掩码内容 [21 (https://arxiv.org/html/2605.22856#bib.bib29)]。编码器成本随掩码比率下降,单视图单次更新避免了对比预训练的多视图开销,并且输入空间重建目标在学习的表示中保留了信道值结构。理论进一步表明,掩码重建隐式执行对比对齐,因为同一输入的不同掩码视图共享一个重建目标,充当正样本对并在特征空间中被拉近。这解释了 MAE 表示的质量,而无需显式的对比损失 [41 (https://arxiv.org/html/2605.22856#bib.bib41)]。 然而,两个设计选择决定了 MAE 编码器实际学习的内容。第一个选择是重建目标。所有无线 MAE 变体都使用原始 MSE 重建 [24 (https://arxiv.org/html/2605.22856#bib.bib14),18 (https://arxiv.org/html/2605.22856#bib.bib15),28 (https://arxiv.org/html/2605.22856#bib.bib11),4 (https://arxiv.org/html/2605.22856#bib.bib7),27 (https://arxiv.org/html/2605.22856#bib.bib17)],这对于幅度跨越非常大动态范围的信道来说并不匹配。在原始 MSE 下,损失由一小部分高功率、通常类似视距 (LoS) 的信道主导,而低功率、富含非视距 (NLoS) 的信道(其小尺度衰落模式包含了编码器实际应该学习的复杂多径结构)对梯度的贡献微乎其微。第二个选择是表示工作如何在编码器和解码器之间分配。视觉 MAE 将深度编码器与浅层解码器配对,并在预训练后丢弃解码器,从而将表示负载强制施加给编码器 [21 (https://arxiv.org/html/2605.22856#bib.bib29)]。无线领域遵循这一趋势。然而,解码器也被保留并重新用于信道重建任务(信道估计、预测和 CSI 反馈)[24 (https://arxiv.org/html/2605.22856#bib.bib14),18 (https://arxiv.org/html/2605.22856#bib.bib15),28 (https://arxiv.org/html/2605.22856#bib.bib11),27 (https://arxiv.org/html/2605.22856#bib.bib17)],因为同时需要强大的表示质量和准确的重建。结果,单个预训练阶段被迫同时实现这两个目标,使得编码器-解码器容量分配成为一种折衷,而不是经过深思熟虑的选择。PilotWiMAE 在第 III 节 (https://arxiv.org/html/2605.22856#S3) 中详细解释了如何处理这两个问题。 目标函数和重建损失的选择只是使预训练信道表示在实际中有用的一部分。另外两个维度同样重要。第一个是“输入接口”,它决定了编码器在预训练和部署期间实际观测到的内容。第二个是“架构归纳偏差”,它调节编码器在结构上被鼓励利用哪些信道属性,直接影响表示质量。两者在无线自监督学习中仍未被充分探索,我们将逐一讨论。 从输入接口开始,大多数现有协议在评估时仍然假设全网格 CSI,并在预训练时操作全网格 CSI 张量,有时在自监督重建目标下进行掩码。几项工作完全基于预训练和评估干净的完全 CSI [5 (https://arxiv.org/html/2605.22856#bib.bib20),25 (https://arxiv.org/html/2605.22856#bib.bib19),24 (https://arxiv.org/html/2605.22856#bib.bib14),30 (https://arxiv.org/html/2605.22856#bib.bib16)]。
相似文章
CSI-JEPA:面向最小监督下泛在感知的基础表征
CSI-JEPA是一个自监督框架,从无标签的Wi-Fi信道状态信息中学习可复用的表征,实现标签高效的多任务感知。它能节省高达98%的标签,并优于监督模型。
WISE-HAR: 一个基于WiFi的人类活动识别的可泛化集成深度学习框架
本文介绍了WISE-HAR,一个用于基于WiFi的人类活动识别的集成深度学习框架,实现了鲁棒的性能和跨场景的泛化能力,准确率下降极小。
AeroJEPA:学习用于可扩展3D气动场建模的语义潜在表示
本文介绍了AeroJEPA,一种用于可扩展3D气动场建模的联合嵌入预测架构。它通过预测流场的语义潜在表示,解决了当前代理模型在可扩展性和设计实用性方面的局限性,从而实现了高效的高保真分析和设计优化。
CAWI:面向随机神经网络的Copula对齐权重初始化方法
介绍CAWI,一种基于Copula的随机神经网络权重初始化方法,该方法建模特征间依赖关系,在83个分类基准上提升了预测性能。
使用学习锚点和白化内积改进相对表示
本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示,使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。