三思而后行:意图引导推理用于基于LLM的位置预测
摘要
IntentPOI是一个两阶段意图引导推理框架,用于下一个POI预测。它首先从历史移动模式、同伴行为和时间上下文中推断用户意图,然后选择与这些意图一致的位置,在十一个最先进的基线方法中表现最优。
arXiv:2606.08122v1 Announce Type: new
基于用户历史签到记录预测下一个兴趣点(POI)是基于位置服务中的一项基本任务。虽然结合大语言模型的最新方法展现了强大的推理能力和令人期待的结果,但它们通常将预测任务视为一步式的轨迹到位置映射问题,使得预测容易受到浅层轨迹相关性和历史频率偏差的影响。我们认为用户很少直接选择位置,而是通常先形成出行意图,然后据此选择特定的POI。受此启发,我们提出了IntentPOI,一个两阶段意图引导推理框架。在思考阶段,我们通过结合历史移动模式、相似同伴行为和时间上下文来推断用户的中间意图。在执行阶段,我们首先构建一个紧凑的候选池,然后执行意图引导推理,以识别与推断意图最一致的位置。通过明确地将意图推理与位置预测解耦,IntentPOI将下一个POI预测从直接的轨迹匹配转变为意图引导推理。在三个真实世界数据集上的大量实验表明,IntentPOI始终优于十一个最先进的基线方法。
查看缓存全文
缓存时间: 2026/06/09 08:54
# 三思而后行:基于意图引导推理的LLM位置预测 来源:https://arxiv.org/html/2606.08122 ,梁安琦 上海交通大学 中国,蒋卓扬 香港科技大学(广州) 中国,蒋玉田 香港科技大学(广州) 中国,吕思索 香港科技大学 香港,季宇 复旦大学 中国,温浩民 上海创新研究院 中国,梁宇轩 香港科技大学(广州) 中国 (2009年6月5日) ###### 摘要。 根据用户的历史签到记录预测其下一个兴趣点是基于位置服务中的一项基础任务。尽管近期结合大语言模型的方法展现出强大的推理能力和有前景的结果,但它们通常将预测任务建模为一步式的轨迹到位置映射问题,导致预测容易受到浅层轨迹关联和历史频率偏差的影响。我们认为用户很少直接选择位置,而是通常先形成出行意图,然后据此选择具体的兴趣点。受这一见解启发,我们提出IntentPOI,一种两阶段意图引导推理框架。在“思考”阶段,我们通过整合历史移动模式、相似同伴行为以及时间上下文来推断用户的中间意图。在“行动”阶段,我们首先构建一个紧凑的候选池,然后执行意图引导推理,以识别与推断意图最匹配的位置。通过将意图推断与位置预测显式解耦,IntentPOI将下一个兴趣点预测从直接的轨迹匹配转变为意图引导推理。在三个真实世界数据集上的大量实验表明,IntentPOI持续优于11种最先进的基线方法。 下一个位置预测, 大语言模型, 时空建模 ††版权声明:acm授权††出版年份:2018††DOI:XXXXXXX.XXXXXXX††会议:请确保从权利确认邮件中输入正确的会议标题;2018年6月03–05日,纽约州伍德斯托克††ISBN:978-1-4503-XXXX-X/2018/06††CCS分类:信息系统 基于位置的服务††CCS分类:计算方法 知识表示与推理 ## 1. 引言 城市计算和基于位置服务的快速发展推动了兴趣点感知应用在多样化现实场景中的应用,包括路线规划、定向广告和轨迹预测(Luca 等, 2021(https://arxiv.org/html/2606.08122#bib.bib54);Chen 等, 2025a(https://arxiv.org/html/2606.08122#bib.bib55))。作为一项基础任务,下一个兴趣点预测旨在通过分析历史签到轨迹中的移动模式,预测用户在给定时间点可能访问的位置(Zhao 等, 2020(https://arxiv.org/html/2606.08122#bib.bib56);Lai 等, 2024(https://arxiv.org/html/2606.08122#bib.bib57))。基于深度学习的下一个兴趣点预测方法主要通过循环网络(Zhao 等, 2020(https://arxiv.org/html/2606.08122#bib.bib56);Feng 等, 2018b(https://arxiv.org/html/2606.08122#bib.bib64);Wu 等, 2020(https://arxiv.org/html/2606.08122#bib.bib65))、注意力机制(Luo 等, 2021(https://arxiv.org/html/2606.08122#bib.bib66);Sun 等, 2024(https://arxiv.org/html/2606.08122#bib.bib67);Yang 等, 2022b(https://arxiv.org/html/2606.08122#bib.bib68))或图神经网络(Lim 等, 2020a(https://arxiv.org/html/2606.08122#bib.bib69);Sánchez 和 Bellogín, 2022(https://arxiv.org/html/2606.08122#bib.bib15))对顺序签到记录进行建模,以捕捉空间和时间转移模式(Dang 等, 2023(https://arxiv.org/html/2606.08122#bib.bib58);Yin 等, 2023(https://arxiv.org/html/2606.08122#bib.bib59);Zeng 等, 2025(https://arxiv.org/html/2606.08122#bib.bib60);Wu 等, 2025b(https://arxiv.org/html/2606.08122#bib.bib61))。尽管取得了有前景的性能,但这些方法严重依赖于对历史轨迹的隐式模式匹配,缺乏底层分析,这限制了它们在复杂城市环境中的泛化能力和可解释性(Wang 和 Wang, 2024(https://arxiv.org/html/2606.08122#bib.bib74);Yang 等, 2024b(https://arxiv.org/html/2606.08122#bib.bib75))。 受大语言模型卓越推理能力的启发,近期研究者将大语言模型应用于下一个兴趣点预测(Wu 等, 2025a(https://arxiv.org/html/2606.08122#bib.bib62);Zhong 等, 2025(https://arxiv.org/html/2606.08122#bib.bib26);Li 等, 2024(https://arxiv.org/html/2606.08122#bib.bib23);Feng 等, 2024(https://arxiv.org/html/2606.08122#bib.bib22);Chen 等, 2025b(https://arxiv.org/html/2606.08122#bib.bib27);Lv 等, 2026(https://arxiv.org/html/2606.08122#bib.bib63);Tan 等, 2024(https://arxiv.org/html/2606.08122#bib.bib77)),产生了两种主要范式。基于提示的方法将历史轨迹重新组织为文本提示,引导大语言模型推断用户画像和移动模式,以进行基于证据的预测(Zhong 等, 2025(https://arxiv.org/html/2606.08122#bib.bib26);Li 等, 2024(https://arxiv.org/html/2606.08122#bib.bib23);Feng 等, 2024(https://arxiv.org/html/2606.08122#bib.bib22))。例如,CoMaPOI 将历史轨迹作为提示输入大语言模型,以推导出长期用户画像、短期移动模式以及候选兴趣点,用于最终重排序。基于令牌的方法为兴趣点预训练语义令牌,使大语言模型能够在文本空间中直接学习兴趣点级别的知识(Chen 等, 2025b(https://arxiv.org/html/2606.08122#bib.bib27);Lv 等, 2026(https://arxiv.org/html/2606.08122#bib.bib63))。例如,QT-Mob 将每个兴趣点的概述、地理位置和空间上下文编码为四个离散令牌,并训练大语言模型将这些组合令牌映射到精确的兴趣点索引。这两类方法表明,大语言模型能够有效捕捉移动模式,并取得比深度学习方法显著的性能提升。 尽管性能优异,现有基于大语言模型的方法往往将下一个兴趣点预测视为一个轨迹到位置的映射问题,所采用的大语言模型根据给定的历史签到记录直接预测目标兴趣点或对候选进行重排序,因此容易受到浅层轨迹关联和历史频率偏差的影响。当历史轨迹稀疏或多个候选表现出相似的转移模式时,这种局限性尤为严重。在这种情况下,大语言模型通常会默认为频繁访问的位置,即使这些预测在语义上与当前上下文不一致。事实上,用户很少在兴趣点级别直接做出移动决策。相反,他们通常形成明确的出行意图(如用餐、购物或社交),然后在空间和时间约束下选择满足其意图的具体位置。这一见解表明,下一个兴趣点预测不应被建模为单步前向问题,而应是一个两阶段推理过程:首先推断用户意图,然后选择与意图一致的位置。 见图1。基于提示和基于令牌的方法都对下一个兴趣点索引或令牌执行一步预测。我们提出的IntentPOI显式地将用户意图推断作为中间步骤,该步骤作为推理支架,引导下游大语言模型进行与意图一致的推理。为弥补这一不足,我们提出了一种面向大语言模型的下一个兴趣点预测的“先思考后行动”原则。不是直接将历史轨迹映射到位置,而是将下一个兴趣点预测问题分解为两个推理阶段。“思考”阶段专注于通过从历史移动模式和上下文信号中显式推断潜在意图,来理解用户可能移动的原因(为何出行)。“行动”阶段专注于通过推荐最能满足推断意图的位置,来确定用户将要去哪里(去往何处)。显式推断出的意图充当推理支架,连接移动理解与下游兴趣点预测。 基于这一原则,我们提出了IntentPOI,一个用于下一个兴趣点预测的两阶段意图引导大语言模型推理框架。在“思考”阶段,IntentPOI 整合多依据证据,包括用户画像、同伴行为和时间上下文,通过大语言模型推理推断用户的潜在意图。在“行动”阶段,IntentPOI 首先通过结合历史访问过的兴趣点与空间邻近兴趣点,构建一个紧凑的候选池,然后执行意图引导推理,以识别与推断意图最匹配的位置。通过这一两阶段过程,IntentPOI 将下一个兴趣点预测从频率驱动的轨迹匹配转变为基于意图的推理。 我们的贡献总结如下: - • 我们指出现有基于大语言模型的下一个兴趣点预测方法缺乏显式意图建模是一个根本性局限,并将下一个兴趣点预测重新构造为由意图推断和位置确定组成的两阶段推理问题。 - • 我们提出IntentPOI,一个先思考后行动的大语言模型推理框架,基于多依据证据推断意图,然后执行意图引导的候选推荐。 - • 在三个真实世界数据集上的大量实验证明了IntentPOI相比最先进基线的有效性和效率。 ## 2. 相关工作 基于深度学习的方法。早期基于深度学习的下一个兴趣点预测方法通常采用顺序架构,包括基于RNN和基于注意力的模型,用于对用户的签到序列进行建模,从而捕捉其移动模式并推断位置偏好(Feng 等, 2018a(https://arxiv.org/html/2606.08122#bib.bib16);Gao 等, 2019(https://arxiv.org/html/2606.08122#bib.bib17);Yang 等, 2020(https://arxiv.org/html/2606.08122#bib.bib18);Xue 等, 2021(https://arxiv.org/html/2606.08122#bib.bib19);Jiang 等, 2024(https://arxiv.org/html/2606.08122#bib.bib20))。例如,DeepMove(Feng 等, 2018a(https://arxiv.org/html/2606.08122#bib.bib16))采用基于RNN的架构,整合多个与移动相关的因素来建模人类转移规律,并引入历史注意力机制来从用户长期移动历史中捕捉周期性模式。Flashback(Yang 等, 2020(https://arxiv.org/html/2606.08122#bib.bib18))通过使RNN能够选择性地重访相关过去状态来缓解轨迹稀疏性。它利用空间和时间信号对先前的轨迹表示进行加权,从而提高下一个兴趣点预测性能。MobTCast(Xue 等, 2021(https://arxiv.org/html/2606.08122#bib.bib19))是一种上下文感知的基于Transformer的模型,结合了时空、语义、社交和地理上下文进行下一个兴趣点预测。它使用基于Transformer的特征提取器编码历史兴趣点序列和语义信息,并进一步考虑社会影响和地理约束。另一条研究路线探索了用于下一个兴趣点预测的图方法,这些方法从移动轨迹构建图以捕捉用户-兴趣点交互和兴趣点转移模式。然后这些方法应用图神经网络学习关系表示,以预测用户未来的兴趣点访问(Lim 等, 2020b(https://arxiv.org/html/2606.08122#bib.bib28);Li 等, 2021(https://arxiv.org/html/2606.08122#bib.bib30);Rao 等, 2022(https://arxiv.org/html/2606.08122#bib.bib29);Yan 等, 2023(https://arxiv.org/html/2606.08122#bib.bib31);Rao 等, 2024(https://arxiv.org/html/2606.08122#bib.bib32))。例如,STP-UDGAT(Lim 等, 2020b(https://arxiv.org/html/2606.08122#bib.bib28))利用图注意力捕捉兴趣点-兴趣点和用户-用户关系,结合个性化局部偏好和全局时空偏好邻域进行下一个兴趣点推荐。Graph-Flashback(Rao 等, 2022(https://arxiv.org/html/2606.08122#bib.bib29))构建了异质时空知识图,以学习能够捕捉兴趣点间转移模式的兴趣点嵌入。STHGCN(Yan 等, 2023(https://arxiv.org/html/2606.08122#bib.bib31))利用时空超图建模移动轨迹中的高阶依赖和全局协作关系。它进一步结合用户间和用户内的协作信号与时空上下文进行下一个兴趣点预测。尽管这些方法在建模顺序模式和关系结构方面有效,但它们很大程度上依赖于观察到的移动关联和预定义的上下文特征,难以捕捉签到轨迹中更深层次的行为意图和语义依赖。这限制了它们对多样化用户行为和复杂城市环境的泛化能力。 基于大语言模型的方法。近期研究由于大语言模型强大的推理和生成能力,探索了将其用于下一个兴趣点预测。例如,LLM-Mob(Wang 等, 2023(https://arxiv.org/html/2606.08122#bib.bib21))通过包含上下文的提示,编码用户的历史和近期移动记录,利用大语言模型的推理能力,从而捕捉长期和短期的移动依赖关系。LLM-Move(Feng 等, 2024(https://arxiv.org/html/2606.08122#bib.bib22))将下一个兴趣点预测形式化为候选排序问题,并引入结合地理偏好、空间距离和顺序转移模式的提示策略。LLM4POI(Li 等, 2024(https://arxiv.org/html/2606.08122#bib.bib23))通过基于提示的问答适配预训练大语言模型,使模型能够通过微调利用上下文信息和常识知识。Mobility-LLM(Gong 等, 2024b(https://arxiv.org/html/2606.08122#bib.bib33))从签到序列中提取语义信息,帮助大语言模型更好地理解用户的访问意图和出行偏好,并在多个移动分析任务上进一步微调模型。POI-Enhancer(Cheng 等, 2025(https://arxiv.org/html/2606.08122#bib.bib24))利用大语言模型衍生的语义知识改进兴趣点表示,而GNPR-SID(Wang 等, 2025(https://arxiv.org/html/2606.08122#bib.bib25))从语义和协作特征构建语义兴趣点标识符,用于生成式下一个兴趣点推荐。QT-Mob(Chen 等, 2025b(https://arxiv.org/html/2606.08122#bib.bib27))通过在文本空间中表示移动记录并将位置语义编码为离散令牌,适配大语言模型进行移动建模,从而在保持与大语言模型架构兼容的同时捕捉丰富的上下文信息。SILO(Sun 等, 2025(https://arxiv.org/html/2606.08122#bib.bib34))构建了一个混合语义空间,整合基于ID的嵌入、基于上下文的语义和辅助上下文信息,实现了顺序移动模式与丰富上下文语义的联合建模。CoMaPOI(Zhong 等, 2025(https://arxiv.org/html/2606.08122#bib.bib26))引入了一个协作多智能体框架,以解决大语言模型对数值时空数据理解有限以及因候选兴趣点空间过大导致的无关预测问题。然而,现有基于大语言模型的方法通常依赖提示工程或文本化的轨迹表示。因此...
相似文章
ATTNPO: 用于高效推理的注意力引导过程监督
ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。
提示引导的多样化策略优化用于LLM推理
本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。
感知先行推理:一种高效可靠的主动移动代理的预推理感知框架
本文提出了一种用于主动移动代理的预推理感知框架(PRPF),将干预时机与辅助生成解耦,以提高效率并减少误触发。
Reason--Imagine--Act:基于世界模型的闭环大语言模型决策在自动驾驶中的应用
提出了Reason-Imagine-Act (RIA),一种将大语言模型推理器与动作条件世界模型相结合的闭环框架,用于自动驾驶中的在线安全验证,在CARLA仿真中实现了80.05%的路线完成率和0.20%的碰撞率。
AIPO:通过与主动交互学习推理
本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。