OmniLoc: 一种几何感知的基础模型,用于跨多样化室内环境的无锚点用户设备定位

arXiv cs.LG 论文

摘要

OmniLoc是一种几何感知的基础模型,用于跨多样化室内环境的无锚点用户设备定位,它采用统一的令牌化模块、几何感知的Transformer和几何嵌入,显著优于现有方法。

arXiv:2606.11490v1 公告类型:新 摘要:基于无线测量的室内定位在大规模部署中仍然具有挑战性,原因在于建筑几何结构、可检测接入点(AP)集合以及接收信号异质性的显著变化。现有的基于学习的方法通常仅在有限场景下表现良好,在环境变化时性能下降,这使得在多样化室内环境中实现鲁棒的无锚点定位非常困难。在本文中,我们提出了OmniLoc,一种面向多样化室内环境无锚点用户设备定位的环境交互式基础模型。据我们所知,OmniLoc是首个直接基于无线测量构建的、用于此任务的基础模型方法。OmniLoc基于三个关键设计。首先,统一的输入令牌化模块将异构无线测量转换为更易于学习的通用表示。其次,几何感知的Transformer通过强调主导AP同时聚合来自辅助AP的补充证据,执行AP感知的特征提取。第三,几何感知的位置估计模块将回归条件建立在几何嵌入上,以生成几何一致的位置预测。我们在大规模内部数据集和公共基准数据集上评估了OmniLoc。结果表明,OmniLoc显著优于现有方法,当其设计组件集成时能持续改进现有基线模型,并在跨环境评估中展现出强大的泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:48

# OmniLoc:一种几何感知的基础模型,用于跨多种室内环境的无锚点用户设备定位  
**来源:**https://arxiv.org/html/2606.11490  
Lei Chu, Yuning Zhang, Omer Gokalp Serbetci, Anushka Katiyar, Bassel Abou Ali Modad, and Andreas F. Molisch  

###### 摘要  
基于无线测量的室内定位在规模化部署中仍面临挑战,主要原因是建筑物几何结构差异大、可检测接入点(AP)数量变化显著以及接收信号的异质性。现有的基于学习的方法通常仅在有限场景下表现良好,并在环境变化时性能下降,这使得在多样化的室内环境中实现鲁棒的无锚点定位异常困难。本文提出OmniLoc,一种环境交互式基础模型,用于跨多种室内环境的无锚点用户设备定位。据我们所知,OmniLoc是首个直接基于无线测量构建的基础模型方法,用于此任务。OmniLoc基于三个关键设计:第一,统一输入标记化模块将异质无线测量转换为更适合学习的通用表示;第二,几何感知Transformer通过强调主导AP同时聚合来自辅助AP的互补证据,执行AP感知特征提取;第三,几何感知定位模块将回归条件化于几何嵌入,以生成几何一致的定位预测。我们在大规模内部数据集和公共基准数据集上评估OmniLoc。结果表明,OmniLoc显著优于现有方法,当其设计组件集成时能一致提升现有骨干网络的性能,并在跨环境评估中展现出强大的泛化能力。  

###### 索引术语:无锚点定位、几何感知基础模型、统一嵌入、多样化环境。  

## I. 引言  
室内用户设备(UE)定位已成为下一代无线系统的重要能力[75](https://arxiv.org/html/2606.11490#bib.bib4)、[34](https://arxiv.org/html/2606.11490#bib.bib8), Chap. 29]、[61](https://arxiv.org/html/2606.11490#bib.bib27)、[73](https://arxiv.org/html/2606.11490#bib.bib23)],支持广泛的应用,如上下文感知服务[77](https://arxiv.org/html/2606.11490#bib.bib30)]、资产追踪[33](https://arxiv.org/html/2606.11490#bib.bib31)]、应急响应[14](https://arxiv.org/html/2606.11490#bib.bib32)]和智能建筑管理[13](https://arxiv.org/html/2606.11490#bib.bib33)]。“经典”方法,如基于到达时间(包括流行的全球定位系统GPS和蜂窝911定位)、到达方向和接近感测的方法,取得了实质性进展,但在室内环境中仍面临根本性挑战。因此,基于机器学习(ML)的技术在室内定位中越来越受欢迎,参见综述[5](https://arxiv.org/html/2606.11490#bib.bib13)、[45](https://arxiv.org/html/2606.11490#bib.bib3)、[50](https://arxiv.org/html/2606.11490#bib.bib2)、[23](https://arxiv.org/html/2606.11490#bib.bib1)]及其参考文献。然而,这些文献也揭示了该方法的挑战:实际部署中,环境间存在强烈的几何多样性,可检测AP数量变化大,以及由不同传播条件[3](https://arxiv.org/html/2606.11490#bib.bib28)]、阻挡[9](https://arxiv.org/html/2606.11490#bib.bib21)]和设备-环境交互[52](https://arxiv.org/html/2606.11490#bib.bib34)]导致的接收信号强度高度异质。这些因素使得现有方法难以实现鲁棒且可迁移的性能,尤其是在无锚点设置中,定位直接依赖无线测量,无需显式基础设施校准[69](https://arxiv.org/html/2606.11490#bib.bib12)、[51](https://arxiv.org/html/2606.11490#bib.bib15)]。  

与此同时,基础模型的最新进展[70](https://arxiv.org/html/2606.11490#bib.bib35)、[35](https://arxiv.org/html/2606.11490#bib.bib76)、[36](https://arxiv.org/html/2606.11490#bib.bib16)、[29](https://arxiv.org/html/2606.11490#bib.bib36)、[44](https://arxiv.org/html/2606.11490#bib.bib5)、[2](https://arxiv.org/html/2606.11490#bib.bib7)、[7](https://arxiv.org/html/2606.11490#bib.bib6)、[66](https://arxiv.org/html/2606.11490#bib.bib37)]展示了从大规模多样化数据中学习可迁移表示的强大潜力。例如,预训练Transformer模型[35](https://arxiv.org/html/2606.11490#bib.bib76)]能够捕捉时空模式和传播环境特性,从而实现高精度5G定位。基于模拟的DeepMIMO数据集[4](https://arxiv.org/html/2606.11490#bib.bib17)]、[36](https://arxiv.org/html/2606.11490#bib.bib16)]证明,专为无线定位定制的基于Transformer的自监督基础模型可以在极少标注数据下实现卓越精度,并对未见过的基站配置表现出强鲁棒性。然而,将其直接应用于基于原始测量的无线室内定位仍鲜有探索。与传统学习任务不同,室内定位不仅需要对异质无线信号进行有效建模[78](https://arxiv.org/html/2606.11490#bib.bib39)],还需要保持这些观测中蕴含的底层几何关系。这需要一种新的框架,既能共同捕捉测量异质性和几何一致性,又能泛化到多种室内环境。  

本文的核心贡献包括:  
- • 我们提出OmniLoc,一种环境交互式基础模型,用于跨多种室内环境的无锚点用户设备定位。据我们所知,OmniLoc是首个直接基于无线测量构建的基础模型方法,显式解决了几何多样性、可检测AP数量变化和异质接收信号强度等核心挑战。  
- • 我们在OmniLoc中引入三个关键设计:1)统一输入标记化模块,将异质无线测量转换为更易于学习的类句子表示;2)几何感知Transformer,通过强调主导AP同时聚合来自其他AP的互补证据,执行AP感知特征提取;3)几何感知定位模块,将回归条件化于几何嵌入,以生成几何一致的UE位置估计。  
- • 我们在自采数据集和公共基准数据集上进行了广泛的案例研究。结果表明:1)OmniLoc在大规模多样化室内环境中显著优于现有方法;2)所提出的设计组件灵活,可轻松集成到现有方法中,并一致提升其性能;3)OmniLoc在跨环境评估中展现出强大的泛化能力。  

本文其余部分组织如下。第二部分回顾相关工作。第三部分介绍问题公式化和所提方法。第四部分介绍案例研究及相应分析。最后,第五部分总结全文。为提升可读性,关键理论分析和证明推迟至附录。  

## II. 相关工作  

### II-A 无锚点室内定位  
室内定位已成为位置感知应用的关键使能技术[73](https://arxiv.org/html/2606.11490#bib.bib23)]。传统的基于锚点的系统依赖已知位置的参考节点——如Wi-Fi接入点(AP)[1](https://arxiv.org/html/2606.11490#bib.bib25)]、蓝牙信标[11](https://arxiv.org/html/2606.11490#bib.bib26)]或超宽带(UWB)收发器[15](https://arxiv.org/html/2606.11490#bib.bib24)]——其位置需预先勘测并维护,导致高部署成本和繁重校准工作;此外,许多情况下这些节点的位置可能不易得知(如私人公寓中的Wi-Fi AP)或出于安全原因保密[78](https://arxiv.org/html/2606.11490#bib.bib39)]。无锚点定位通过消除对已知位置基础设施的依赖来解决这些限制,而是直接从节点间测量或环境信号中推断空间关系[39](https://arxiv.org/html/2606.11490#bib.bib49)、[72](https://arxiv.org/html/2606.11490#bib.bib48)、[43](https://arxiv.org/html/2606.11490#bib.bib46)、[47](https://arxiv.org/html/2606.11490#bib.bib50)、[80](https://arxiv.org/html/2606.11490#bib.bib47)]。  

大量研究探索了利用多种传感模态和算法框架的无锚点室内定位。早期工作结合相对距离测量——通过接收信号强度指示(RSSI)[25](https://arxiv.org/html/2606.11490#bib.bib51)]或飞行时间(ToF)[60](https://arxiv.org/html/2606.11490#bib.bib52)]获得——与多维缩放(MDS)[38](https://arxiv.org/html/2606.11490#bib.bib53)、[41](https://arxiv.org/html/2606.11490#bib.bib54)]以重建节点配置,无需固定参考。后续研究通过行人航位推算(PDR)[22](https://arxiv.org/html/2606.11490#bib.bib55)]融合惯性测量单元(IMU)数据,并与机会信号(如地磁指纹或气压)结合以减轻漂移。最近,深度学习方法——包括用于序列运动建模的长短期记忆(LSTM)网络[27](https://arxiv.org/html/2606.11490#bib.bib56)]——以及利用闭环约束的基于图的同步定位与建图(SLAM)优化,进一步提升了定位精度和鲁棒性[6](https://arxiv.org/html/2606.11490#bib.bib57)]。总体而言,这些工作反映了无锚点方法的日益成熟,逐步收敛于结合信号处理、概率推理和数据驱动学习的不依赖基础设施的解决方案。  

### II-B 室内定位的无线信号模态  
室内定位已探索多种无线模态[64](https://arxiv.org/html/2606.11490#bib.bib62)、[10](https://arxiv.org/html/2606.11490#bib.bib58)、[67](https://arxiv.org/html/2606.11490#bib.bib60)、[73](https://arxiv.org/html/2606.11490#bib.bib23)],每种在精度、覆盖范围、部署成本和鲁棒性之间提供不同权衡。早期系统主要依赖来自Wi-Fi、蓝牙、ZigBee和蜂窝信号的RSSI和/或信噪比(SNR)或信号干扰加噪声比(SINR)测量,因为它们易于从现有基础设施中获得,且需要最少的额外部署。这使得它们适用于可扩展的指纹和基于延迟的系统。然而,RSSI对多径、时间变化、设备异质性和环境动态高度敏感,通常限制定位精度。为克服这些限制,后续工作[49](https://arxiv.org/html/2606.11490#bib.bib66)、[21](https://arxiv.org/html/2606.11490#bib.bib64)、[64](https://arxiv.org/html/2606.11490#bib.bib62)、[71](https://arxiv.org/html/2606.11490#bib.bib59)、[59](https://arxiv.org/html/2606.11490#bib.bib61)]利用了更丰富的物理层测量,包括信道状态信息(CSI)、到达时间(ToA)、到达时间差(TDoA)、到达角(AoA)、相位和多普勒特征,这些提供了更丰富的空间信息,用于更精确的室内传播建模。  

尽管如此,在大规模、异质室内环境中进行UE定位仍然困难,主要原因是很难设计有效的输入表示[30](https://arxiv.org/html/2606.11490#bib.bib68)、[76](https://arxiv.org/html/2606.11490#bib.bib67)、[31](https://arxiv.org/html/2606.11490#bib.bib71)]。先前工作通常依赖频域表示,如功率时延谱[55](https://arxiv.org/html/2606.11490#bib.bib81)]、角度功率时延谱[63](https://arxiv.org/html/2606.11490#bib.bib82)]和多普勒特征[49](https://arxiv.org/html/2606.11490#bib.bib66)],或信道图技术[46](https://arxiv.org/html/2606.11490#bib.bib79)、[48](https://arxiv.org/html/2606.11490#bib.bib80)]以捕捉细粒度信号结构[8](https://arxiv.org/html/2606.11490#bib.bib70)、[62](https://arxiv.org/html/2606.11490#bib.bib73)、[31](https://arxiv.org/html/2606.11490#bib.bib71)、[56](https://arxiv.org/html/2606.11490#bib.bib69)、[19](https://arxiv.org/html/2606.11490#bib.bib72)]。然而,在大型商业或校园Wi-Fi部署中,CSI相位测量往往因发射和接收天线数量有限而不稳定且噪声大,导致不可靠且易产生较大误差[69](https://arxiv.org/html/2606.11490#bib.bib12)]。受这些限制驱动,我们寻求一种既鲁棒又富有表现力的统一表示。受可解释句子嵌入方法[28](https://arxiv.org/html/2606.11490#bib.bib9)]启发,我们的设计针对无线测量的结构定制,使其易于扩展且非常适合大规模室内定位。  

### II-C 用于室内定位的先进ML模型  
机器学习已成为室内定位的重要方法[57](https://arxiv.org/html/2606.11490#bib.bib63)、[58](https://arxiv.org/html/2606.11490#bib.bib65)、[5](https://arxiv.org/html/2606.11490#bib.bib13)]。早期系统主要依赖经典模型,如极限学习机[76](https://arxiv.org/html/2606.11490#bib.bib67)]、k近邻[68](https://arxiv.org/html/2606.11490#bib.bib11)]和支持向量机[53](https://arxiv.org/html/2606.11490#bib.bib10)]。近期工作转向直接学习RSSI、CSI和其他无线测量的深度神经网络[58](https://arxiv.org/html/2606.11490#bib.bib65)]。特别是基于卷积神经网络(CNN)、LSTM和自编码器的方法,通过捕捉无线指纹中更丰富的空间和时间结构,优于经典流程。最近,研究者探索了更具表现力的架构,包括Transformer[32](https://arxiv.org/html/2606.11490#bib.bib74)、[65](https://arxiv.org/html/2606.11490#bib.bib75)、[36](https://arxiv.org/html/2606.11490#bib.bib16)]、自监督预训练[37](https://arxiv.org/html/2606.11490#bib.bib77)、[35](https://arxiv.org/html/2606.11490#bib.bib76)、[42](https://arxiv.org/html/2606.11490#bib.bib78)]和几何感知表示学习[42](https://arxiv.org/html/2606.11490#bib.bib78)、[9](https://arxiv.org/html/2606.11490#bib.bib21)]。这些方法更好地捕捉无线观测之间的复杂依赖关系,并在非视距传播和稀疏监督等挑战性条件下提高鲁棒性。同时,新兴研究开始探索无线定位的基础模型式解决方案。然而,现有方法仍严重依赖合成数据或单环境训练,并未完全解决跨多种室内几何和异质测量的无锚点定位问题。  

## III. 无锚点UE定位:系统概述、

相似文章

跨模型局部等距一致性下的向量链接

arXiv cs.AI

本文介绍了Vector Linking方法,该方法通过利用局部几何一致性来恢复来自不同黑盒编码器的嵌入之间的对应关系,并提出了一种基于参考的迭代式几何嵌入哈希方法,该方法使用少量配对的锚点种子集。

使用学习锚点和白化内积改进相对表示

arXiv cs.LG

本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示,使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。

OSMGraphCLIP:从OpenStreetMap图学习全局位置表示

arXiv cs.AI

OSMGraphCLIP是一种模型,它使用基于图的编码器和与球谐位置编码器的对比对齐,从OpenStreetMap数据中学习全局位置嵌入。该模型在多种地理空间任务中表现出色,通常能够达到甚至超越基于卫星的方法。

UniT:基于分组自回归Transformer的统一几何学习

Hugging Face Daily Papers

UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。