TrajGenAgent:一种用于人类移动轨迹生成的分层LLM智能体
摘要
TrajGenAgent提出了一种分层LLM智能体框架,将宏观活动规划与微观时空实例化解耦,用于无需微调即可生成逼真的人类移动轨迹。它还引入了一种基于异常检测的评估方法,用于行为保真度。
arXiv:2606.12657v1 公告类型:新
摘要:人类移动数据对于交通、城市规划和流行病控制至关重要,但大规模轨迹收集通常成本高昂且受隐私限制,这推动了逼真合成轨迹生成的研究。现有的基于LLM的生成器通常依赖于两种方法:提示工程保留了零样本推理能力,但缺乏细粒度的时空基础;轨迹级微调提高了统计精度,但会带来大量计算成本,并可能削弱通用推理能力。我们提出TrajGenAgent,一种语义感知的分层LLM智能体框架,用于在没有模型微调的情况下生成人类移动轨迹。TrajGenAgent采用了两阶段的编排器-工作者设计:首先,LLM通过上下文学习从历史证据中合成一个个体和星期几条件下的活动链,然后一个确定性工作流利用个性化POI检索、距离感知的位置选择、运动学感知的旅行时间传播以及基于LLM的持续时间估计,将每个活动具体化为一次完整的访问。为了评估超越聚合时空统计的逼真度,我们引入了一个基于异常检测的评估框架,使用两个互补的检测器来评估行为和语义的合理性。在基准测试和大规模模拟数据集上的实验表明,与代表性的神经网络和基于LLM的基线相比,TrajGenAgent在时空保真度、语义一致性和个体特定的行为逼真度方面均有提升,同时避免了参数更新。
查看缓存全文
缓存时间: 2026/06/12 08:52
# 人类移动轨迹生成的分层LLM智能体 来源: https://arxiv.org/html/2606.12657 ###### 摘要 人类移动数据对于交通、城市规划和流行病控制至关重要。然而,大规模轨迹收集往往成本高昂且受隐私限制,这推动了真实合成移动轨迹生成需求的产生。近期基于LLM的生成器通常遵循两种范式:(i) 提示工程,利用通用先验知识实现高效的零样本生成,但缺乏细粒度的时空基础;以及 (ii) 使用结构化轨迹进行微调,可实现强时空精度,但会带来大量计算成本,并可能削弱通用推理能力。工具增强型智能体正在兴起,但仍处于早期阶段,在高层规划与低层实现之间仍缺乏有效协调。为解决这些局限性,我们提出了TrajGenAgent,一种无需模型微调的语义感知分层LLM智能体框架,用于轨迹生成。TrajGenAgent采用两阶段编排器-工作器设计,将宏观活动结构与微观时空动态解耦。在第一阶段,LLM通过基于历史示例的上下文学习,为给定个体和星期几合成一个活动链。在第二阶段,一个确定性工作流通过距离感知的规则基位置检索和LLM增强的运动学感知时间生成,实例化每次活动访问。传统合成移动数据评估指标主要评估聚合时空统计量,无法捕获个体轨迹的行为保真度或真实性。为解决这一局限性,我们引入了一个基于异常检测的评估框架,配备两个互补的异常检测器,它们提供超越宏观统计一致性的行为与语义反馈。在基准数据集和大规模模拟数据集上的实验表明,TrajGenAgent在时空统计指标上优于基线方法,同时在语义连贯性和个体特定行为保真度方面也有所提升,且无需参数更新。 参考图1: TrajGenAgent框架。一种分层编排器-工作器LLM智能体工作流:LLM编排器通过基于历史证据的上下文学习,合成受个体和日控制的活动链骨架;然后,一个确定性LangGraph工作器循环通过同伴增强的POI检索、距离/运动学感知的出行时间传播以及上下文感知、约束引导的LLM持续时间模块,将每个活动实例化为完整的访问。 ## I 引言 以轨迹或访问序列表示的人类移动数据,对于推进交通、城市规划、社会动态和流行病学等领域的研究与应用至关重要[14 (https://arxiv.org/html/2606.12657#bib.bib1), 3 (https://arxiv.org/html/2606.12657#bib.bib2), 6 (https://arxiv.org/html/2606.12657#bib.bib3)]。然而,大规模轨迹数据的收集通常受高昂成本和隐私问题制约,导致真实世界移动数据集难以获取[30 (https://arxiv.org/html/2606.12657#bib.bib47)]。这推动了合成但真实的轨迹生成方法的发展。 **现有方法与局限性。** 早期方法依赖基于传感器数据、交通统计和手工行为规则校准的微观模拟器[19 (https://arxiv.org/html/2606.12657#bib.bib48)]。这类基于模拟的方法需要仔细的参数调优,且常因过度简化的启发式规则而无法捕捉复杂的移动模式[10 (https://arxiv.org/html/2606.12657#bib.bib39)]。更近期的数据驱动模型,包括生成对抗网络(GAN)和时空点过程,直接从数据学习移动分布以生成大规模轨迹[26 (https://arxiv.org/html/2606.12657#bib.bib11), 50 (https://arxiv.org/html/2606.12657#bib.bib10), 31 (https://arxiv.org/html/2606.12657#bib.bib12), 28 (https://arxiv.org/html/2606.12657#bib.bib49)]。然而,它们常面临训练不稳定、可扩展性有限,以及对人类日常行为缺乏明确语义理解等问题。随着大语言模型(LLMs)[52 (https://arxiv.org/html/2606.12657#bib.bib73)]的出现,近期研究开始利用其强大的序列建模和推理能力进行轨迹生成[22 (https://arxiv.org/html/2606.12657#bib.bib74), 4 (https://arxiv.org/html/2606.12657#bib.bib16), 51 (https://arxiv.org/html/2606.12657#bib.bib76)]。现有基于LLM的方法可根据时空知识整合方式分类:(1) 语言级方法,包括依赖语义先验的纯提示[16 (https://arxiv.org/html/2606.12657#bib.bib92)],以及以自然语言形式注入全局时空知识的轻量文本微调[4 (https://arxiv.org/html/2606.12657#bib.bib16)];(2) 轨迹级微调,将结构化轨迹编码为token序列[22 (https://arxiv.org/html/2606.12657#bib.bib74)];以及 (3) 工具增强型智能体范式,在推理时通过调用专用工具或知识源外部化时空基础[23 (https://arxiv.org/html/2606.12657#bib.bib90), 51 (https://arxiv.org/html/2606.12657#bib.bib76)]。 语言级方法保留了LLM的通用知识和适应性,但注入细粒度时空模式的能力有限,生成的轨迹语义上看似合理,但在时间和空间上校准不佳。相比之下,轨迹级微调方法(如Geo-Llama[22 (https://arxiv.org/html/2606.12657#bib.bib74)])将轨迹表示为访问序列,并通过参数高效微调(如LoRA[13 (https://arxiv.org/html/2606.12657#bib.bib78)])调整预训练LLM。虽然实现了强时空保真度,但引入了大量计算开销,并将语义推理与低层统计模式拟合紧密纠缠,导致模型过度专门化,降低了通用推理能力和个体级语义行为的控制。这些观察揭示了一个基本张力:真实的移动生成需要同时具备语义连贯性和细粒度时空基础。语义连贯性指生成轨迹与人类活动逻辑、个体特定和日特定惯例、以及活动-POI-时间兼容性的一致性;而细粒度基础涉及位置偏好、转移模式和时间规律性的准确反映。上述两种方法难以同时实现两者。工具增强型智能体范式虽有前景,但仍处于早期阶段,在高层行为规划与低层时空实现之间仍缺乏有效协调。 **基于LLM智能体的移动生成挑战。** 基于LLM智能体的范式为先前观察到的张力提供了原则性解决方案:LLM充当语义推理和规划核心,而外部工具可在推理时注入精确的时空证据,无需将所有领域知识编码到模型参数中[44 (https://arxiv.org/html/2606.12657#bib.bib80), 33 (https://arxiv.org/html/2606.12657#bib.bib81)]。然而,有效利用LLM智能体进行轨迹生成面临着若干挑战。通用LLM智能体框架在结构化和强制工具调用方式上主要存在差异:1)基于提示的模式注册调用,2)对函数调用轨迹进行监督微调以提高可靠性(如工具调用专用模型)[48 (https://arxiv.org/html/2606.12657#bib.bib84)],以及3)工作流管理型智能体,将工具执行组织为状态机以保证稳定的控制流和终止,同时将需要语义泛化的步骤保留给LLM[37 (https://arxiv.org/html/2606.12657#bib.bib86)]。用于轨迹生成的自然智能体设计是微调或提示LLM通过结构化函数调用模式自主调用工具[48 (https://arxiv.org/html/2606.12657#bib.bib84)]。然而,轨迹生成需要对每次访问进行重复、确定性决策(位置选择、出行时间传播、停留时间估计),这使得端到端自主工具调用变得脆弱。无法保证长时间轨迹的模式合规率达到100%;一个格式错误或遗漏的工具调用可能导致字段缺失(如POI或时间)并破坏访问间依赖关系,触发级联错误,从而损坏后续步骤和整体日计划。此外,对工具调用行为进行监督微调会引入额外训练成本,并可能因灾难性遗忘[23 (https://arxiv.org/html/2606.12657#bib.bib90)]而损害泛化能力。工作流管理型编排为长周期轨迹生成中稳定且确定的工具执行提供了有前景的替代方案。然而,设计此类工作流并不简单:它需要结构化控制流、强制访问级依赖关系,并平衡确定性执行与语义灵活性。据我们所知,先前工作尚未探索用于轨迹生成的工作流设计。 **移动生成中的评估差距。** 除了智能体设计,另一个互补挑战在于如何评估生成的轨迹。大多数轨迹生成评估依赖于聚合分布距离度量(例如,真实训练数据与生成轨迹之间在出行距离、访问频率或转移矩阵上的Jensen-Shannon散度(JSD))[50 (https://arxiv.org/html/2606.12657#bib.bib10), 22 (https://arxiv.org/html/2606.12657#bib.bib74)]。这些度量量化了总体水平的统计相似性,但常常遗漏个体级别的语义缺陷——例如,某个位置-时间模式对一个人可能是正常的,但对另一个人则是异常的,即使全局统计匹配。 **贡献。** 我们提出TrajGenAgent,一个零样本分层智能体框架,在使用LangGraph[37 (https://arxiv.org/html/2606.12657#bib.bib86)]实现的确定性工作流中协调异构推理组件。通过将基于LLM的推理与基于规则的检索和显式物理计算相结合,它确保了语义感知规划与物理感知细粒度时空知识注入,无需昂贵的模型更新。如图1 (https://arxiv.org/html/2606.12657#S0.F1)所示,TrajGenAgent将生成分解为宏观到微观的流水线。在第一阶段,编排器LLM通过基于个体历史日常链和上下文信息(个人属性和日上下文)的上下文学习,生成一个活动链骨架(语义骨架)。在第二阶段,专用工作器模块通过一个注入细粒度时空知识的预定义工作流,将每个活动转换为完整访问。具体来说,第二阶段包含两个专用工作器:空间工作器和时间工作器。空间工作器使用来自同伴增强候选池(通过跨个体相似性匹配构建)的个人统计先验,执行基于规则的检索。这实现了受控探索,同时将位置限制在个性化可行集内。距离感知机制通过将候选位置与用户历史活动对移动模式对齐,进一步强制执行转移合理性,确保与观察到的速度和移动分布一致。时间工作器通过联合推断到达时间戳和停留时长来推进时间。具体来说,它结合了(i) 利用移动模式先验的运动学感知出行时间估计器与(ii) 尊重时间预算约束的基于LLM的持续时间模块。给定已生成的历史和剩余行程,工作流迭代校准每次访问的到达时间和停留时间,以维持局部转移合理性和日级别计划一致性。为了确保鲁棒性,轻量级验证器通过模式强制回退和可行性约束监督两个工作器,确保结构格式和时间有效性。最后,为了更好地评估超越传统聚合统计指标的行为级合理性,我们提出了一种新颖的基于异常检测的评估框架。我们使用两个具有互补重点的检测器:ICAD[2 (https://arxiv.org/html/2606.12657#bib.bib88)]用于识别局部访问级不一致性,BeSTAD[41 (https://arxiv.org/html/2606.12657#bib.bib89)]用于捕获用户级行为偏移。两者都事后应用以评估生成轨迹的语义连贯性。我们的贡献总结如下: * **分层LLM智能体框架。** 我们提出TrajGenAgent,一个零样本分层LLM智能体框架,通过确定性、验证器保护的编排器-工作器工作流在推理时注入时空知识。通过将宏观活动链规划与访问级基础分离,TrajGenAgent实现了高保真轨迹生成,无需昂贵的微调或脆弱的自主工具调用。 * **个性化和物理感知控制。** 我们通过使用历史证据和可配置工具范围约束生成,实现了个体特定和日特定惯例的细粒度个性化控制,同时在时空基础期间强制执行时间预算和物理感知移动性。这产生了语义连贯且忠实于细粒度时空统计的轨迹。 * **行为感知评估框架。** 我们引入了一个新颖的评估框架,该框架通过两个互补的异常检测器(ICAD和BeSTAD)增强传统统计指标,这两个检测器被训练来区分真实与异常或不可信的轨迹,以评估生成轨迹的语义连贯性。 * **全面的实验评估。** 在大规模数据集上的实验表明,TrajGenAgent在时空统计对齐和语义连贯性方面优于基线方法,且无需昂贵的参数更新。异常检测结果表明,我们基于个性化证据和运动学感知先验的推理时基础保留了语义合理性并避免了可检测的伪影,而基线方法尽管匹配聚合统计量,但仍可能表现出异常轨迹模式,尤其是在行为多样的数据集上。 ## II 相关工作 **无LLM的移动轨迹生成。** 在基于LLM的方法出现之前,移动生成主要依赖于模拟和基于神经网络的生成模型。基于模拟的方法使用手工制作的行为规则和从传感器或调查校准的物理动机估计来合成轨迹[32 (https://arxiv.org/html/2606.12657#bib.bib7), 15 (https://arxiv.org/html/2606.12657#bib.bib8)]。它们往往因过度简化的启发式规则而脆弱。数据驱动模型则直接从历史数据中学习轨迹分布。一种常见的表述将移动编码为固定间隔的时空序列,并使用循环骨干(如RNN/LSTM变体)学习下一步转移[27 (https://arxiv.org/html/2606.12657#bib.bib30), 9 (https://arxiv.org/html/2606.12657#bib.bib31),...
相似文章
使用LLM驱动行为与运动约束的移动性异常生成
介绍一种生成框架,利用LLM代理将行为异常注入模拟轨迹中,并应用运动约束和地图约束,生成带有真实标签的逼真异常移动数据。
TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
TRACE:面向长周期智能体安全的轨迹风险感知压缩方法
本文提出 TRACE,一种面向长周期 LLM 智能体的轨迹级安全检测方法,通过将完整轨迹证据压缩为潜在状态,更好地聚合分散的风险信号,在多个基准上达到最先进的准确率。
TraceGraph:用于诊断和改进智能体轨迹的共享决策景观
TraceGraph是一个基于图的框架,它从多模型智能体轨迹中构建共享决策景观,从而能够诊断故障区域并通过陷阱感知恢复流水线进行改进。