在长期用户交互中个性化具身多模态大语言模型智能体
摘要
本文提出Polar,一种多模态记忆增强框架,用于在长期用户交互中个性化具身MLLM智能体,利用知识图谱和情景记忆从累积上下文中定位用户意图的实例。
arXiv:2605.26256v1 公告类型:新
摘要:基于多模态大语言模型(MLLM)的具身智能体在解决物理环境中的复杂任务方面展现出巨大潜力。然而,个性化辅助不仅仅需要遵循通用指令或识别物体类别。在现实场景中,目标对象往往仅通过先前的交互被隐含地指定,要求智能体利用随时间积累的个性化上下文。在这项工作中,我们提出POLAR,一种多模态记忆增强框架,用于长期用户交互中的个性化具身智能体。POLAR将先前的交互组织成一个多模态知识图谱,捕获用于个性化上下文和视觉概念的语义记忆,以及用于具身经验(如智能体轨迹)的情景记忆。为了执行具身任务,POLAR检索相关记忆以解释当前请求并指导任务执行。我们在多个MLLM骨干网络和多样的评估场景下评估POLAR,以研究记忆在长期个性化中的作用。结果表明,所提出的记忆机制通过更有效地利用先前交互中积累的信息,持续提升性能。当智能体需要在多次交互中进行推理、执行多跳推理或跟踪用户特定上下文随时间的变化时,性能提升尤为明显。
查看缓存全文
缓存时间: 2026/05/27 09:02
# 在长期用户交互中个性化具身多模态大语言模型智能体
来源: https://arxiv.org/html/2605.26256
Jeongeun Lee¹ Chanyoung Park² Dongha Lee¹
¹延世大学 ²韩国科学技术院
{ljeadec31, donalee}@yonsei.ac.kr [email protected]
###### 摘要
基于多模态大语言模型(MLLM)的具身智能体在处理物理环境中的复杂任务时展现出了强大潜力。然而,个性化辅助需要的不仅仅是遵循通用指令或在类别层面识别物体。在真实场景中,目标对象通常仅通过先前的交互隐式指定,要求智能体从随时间积累的个性化上下文中定位用户意图的实例。本文提出Polar,一种面向长期用户交互的个性化具身智能体多模态记忆增强框架。Polar将先前的交互组织成多模态知识图谱,其中语义记忆存储个性化上下文,情节记忆存储过去的具身体验(如智能体轨迹)。由此,Polar检索候选对象记忆以定位用户意图的目标实例,并指导后续规划。我们在多个MLLM骨干网络和多种评估场景中评测Polar,以研究如何表示和利用先前的交互来实现长期个性化。结果表明,仅靠当前输入不足以实现个性化实例定位,而原始的先验交互由于非结构化形式难以直接使用。Polar通过将先验交互转化为任务相关记忆来提升性能。
见图注图1: 长期用户交互中的个性化。在日常生活中,用户往往通过先前的交互积累的个人上下文来指代物体,而非显式的目标引用。当存在多个相似物体时,传统具身智能体可能无法确定用户意图的特定实例,因为它们专注于寻找“鞋子”类别而非“哪双”鞋子。这激发了个性化实例定位的需求,即具身智能体利用长期交互历史来解析用户意图。
## 1 引言
随着多模态大语言模型(MLLMs)Team等(2023 (https://arxiv.org/html/2605.26256#bib.bib36));Hurst等(2024 (https://arxiv.org/html/2605.26256#bib.bib37));Bai等(2025 (https://arxiv.org/html/2605.26256#bib.bib35))的巨大进步,基于MLLM的具身智能体在与物理环境交互解决复杂任务方面受到越来越多的研究Mu等(2023 (https://arxiv.org/html/2605.26256#bib.bib57));Driess等(2023 (https://arxiv.org/html/2605.26256#bib.bib30));Zitkovich等(2023 (https://arxiv.org/html/2605.26256#bib.bib58));Szot等(2025 (https://arxiv.org/html/2605.26256#bib.bib13));Zhang等(2025a (https://arxiv.org/html/2605.26256#bib.bib31))。通过集成视觉感知和多模态推理以实现视觉驱动的决策,这些智能体有望在日常生活辅助人类,包括定位Ayub等(2023 (https://arxiv.org/html/2605.26256#bib.bib49));Ramrakhya等(2025 (https://arxiv.org/html/2605.26256#bib.bib32))、导航至Zhao等(2025 (https://arxiv.org/html/2605.26256#bib.bib59));Dai等(2024 (https://arxiv.org/html/2605.26256#bib.bib47));Qiao等(2025 (https://arxiv.org/html/2605.26256#bib.bib12))以及递送物体Tan等(2025 (https://arxiv.org/html/2605.26256#bib.bib61));Korekata等(2026 (https://arxiv.org/html/2605.26256#bib.bib60))以响应用户请求。
尽管以往工作主要聚焦于解决通用指令,但类别级别的实例识别对于个性化辅助是不够的。如图LABEL:fig:intro所示,当用户在特定情境下要求拿鞋,而房屋中存在多双鞋子时,智能体无法确定该拿哪一双,因为缺少个性化上下文。由于此类仅基于自然语言的指令往往无法完全覆盖用户请求Lee等(2025 (https://arxiv.org/html/2605.26256#bib.bib41)),一些具身智能体通过实例级别定位来学习执行针对特定目标实例的任务Lei等(2024 (https://arxiv.org/html/2605.26256#bib.bib71));Barsellotti等(2024 (https://arxiv.org/html/2605.26256#bib.bib43));Taioli等(2025 (https://arxiv.org/html/2605.26256#bib.bib86))。然而,这些方法通常假设目标引用是显式且直接给出的。但在真实世界中,这种个性化上下文往往通过之前的交互隐式传递,要求智能体对其进行解读,从而相应执行个性化指令。
见图注图2: 在PinNED数据集Barsellotti等(2024 (https://arxiv.org/html/2605.26256#bib.bib43))上的初步实验。成功率表示正确导航至目标实例,类别匹配表示到达正确类别物体但实例错误。0-turn和10-turn表示目标引用与最终目标指令之间的中间交互轮数。由于最终指令不含引用,智能体必须从先前交互中识别目标。我们在NavBenchQiao等(2026 (https://arxiv.org/html/2605.26256#bib.bib26))中实现智能体。虽然利用长期上下文对于基于MLLM的具身智能体很重要,但先前研究表明MLLMs在长上下文设置中往往性能下降Kim等(2026 (https://arxiv.org/html/2605.26256#bib.bib46));Xue等(2025 (https://arxiv.org/html/2605.26256#bib.bib54));Bei等(2026 (https://arxiv.org/html/2605.26256#bib.bib55))。它们常常难以对累积的多模态上下文进行有效推理,而是依赖浅层线索Xue等(2025 (https://arxiv.org/html/2605.26256#bib.bib54));Bei等(2026 (https://arxiv.org/html/2605.26256#bib.bib55));Xu等(2026 (https://arxiv.org/html/2605.26256#bib.bib89))。它们也难以追踪信息随时间如何演化,从而难以捕获更新或解决跨交互的冲突Fu等(2026 (https://arxiv.org/html/2605.26256#bib.bib72))。为了进一步检验这一挑战是否也出现在具身多轮交互中,我们在图2 (https://arxiv.org/html/2605.26256#S1.F2)中提供了初步分析。结果显示,多个基于MLLM的具身智能体常常无法从先前的交互中定位出意图的目标实例,突显了它们在利用累积的用户特定信息进行个性化实例定位方面的困难。
对于个性化具身辅助,智能体应(1)管理长期交互中的信息以构建个性化知识,以及(2)利用这些知识解读并适应用户的个体请求。这不仅仅是记住先前的交互,还需要将它们组织成与任务相关的记忆结构,这些结构可以被选择性检索并应用于当前的指令遵循和规划。因此,本文提出Polar,一种面向长期用户交互的个性化基于MLLM的具身智能体的多模态记忆增强框架。为此,Polar利用多模态记忆从先前的交互中积累个性化知识,并检索相关信息以执行任务。虽然许多现有记忆方法主要侧重于压缩过去交互,Polar的关键思想是将它们转化为可直接支持未来具身任务的可复用个性化知识。具体而言,记忆将视觉概念与个性化上下文(即语义记忆)以及智能体轨迹(即情节记忆)组织在一起Tulving等人 (1972 (https://arxiv.org/html/2605.26256#bib.bib63))。我们将这些记忆组织成一个多模态知识图谱,连接跨对象和交互的语义与情节记忆。
我们研究Polar如何跨多个MLLM骨干网络和评估场景对先前的交互进行结构化管理以实现长期个性化具身智能体。结果表明,仅凭当前观察不足以实现个性化实例定位。原始的先前交互可能包含有用的用户特定信息,但其非结构化形式使得它们难以直接用于当前任务。Polar通过将先前的交互转化为任务相关的记忆来提升性能。进一步分析表明,语义记忆提供了更细粒度的用户特定信息检索,而情节记忆则将过去的轨迹转化为与规划相关的经验。这些发现表明,长期个性化需要支持个性化实例定位以及后续具身规划的记忆表示。
## 2 相关工作
视觉驱动的具身智能体。早期关于具身智能体的工作主要利用大型语言模型(LLMs)及其高推理和规划能力Shridhar等(2020 (https://arxiv.org/html/2605.26256#bib.bib8));Huang等(2022a (https://arxiv.org/html/2605.26256#bib.bib14),b (https://arxiv.org/html/2605.26256#bib.bib15));Qian等(2024 (https://arxiv.org/html/2605.26256#bib.bib29))。他们表明LLMs能够分解复杂指令Ahn等(2022 (https://arxiv.org/html/2605.26256#bib.bib21));Cao and Lee (2023 (https://arxiv.org/html/2605.26256#bib.bib20));Zhou等(2024 (https://arxiv.org/html/2605.26256#bib.bib11)),对环境反馈进行推理Singh等(2022 (https://arxiv.org/html/2605.26256#bib.bib23));Bhat等(2024 (https://arxiv.org/html/2605.26256#bib.bib22));Kwon等(2024 (https://arxiv.org/html/2605.26256#bib.bib24)),以及组合机器人策略Kwon等(2024 (https://arxiv.org/html/2605.26256#bib.bib24));Liang等(2023 (https://arxiv.org/html/2605.26256#bib.bib18));Cheng等(2024 (https://arxiv.org/html/2605.26256#bib.bib25))。然而,这些方法通常依赖于文本场景描述Zhou等(2024 (https://arxiv.org/html/2605.26256#bib.bib11));Zhang等(2024 (https://arxiv.org/html/2605.26256#bib.bib27),2025b (https://arxiv.org/html/2605.26256#bib.bib19))、外部感知模块Huang等(2023 (https://arxiv.org/html/2605.26256#bib.bib16))或预定义技能库Ahn等(2022 (https://arxiv.org/html/2605.26256#bib.bib21));Chu等(2024 (https://arxiv.org/html/2605.26256#bib.bib28)),限制了其解读原始观测中细微视觉线索的能力。为了直接感知细粒度视觉信息,近期研究越来越多地探索基于MLLM的具身智能体,这些智能体集成视觉感知和语言推理以实现视觉驱动的决策Szot等(2025 (https://arxiv.org/html/2605.26256#bib.bib13));Qiao等(2026 (https://arxiv.org/html/2605.26256#bib.bib26));Yang等(2025 (https://arxiv.org/html/2605.26256#bib.bib7))。这些智能体在广泛的具身任务中展现了有前景的性能,包括机器人操作Driess等(2023 (https://arxiv.org/html/2605.26256#bib.bib30));Zhang等(2025a (https://arxiv.org/html/2605.26256#bib.bib31))、家务任务Szot等(2025 (https://arxiv.org/html/2605.26256#bib.bib13));Ramrakhya等(2025 (https://arxiv.org/html/2605.26256#bib.bib32));Xiao等(2024 (https://arxiv.org/html/2605.26256#bib.bib33)),以及具身导航Qiao等(2025 (https://arxiv.org/html/2605.26256#bib.bib12),2026 (https://arxiv.org/html/2605.26256#bib.bib26));Xu等(2025 (https://arxiv.org/html/2605.26256#bib.bib34)),在模拟和真实环境中Yang等(2025 (https://arxiv.org/html/2605.26256#bib.bib7));Zhang等(2025d (https://arxiv.org/html/2605.26256#bib.bib81))。然而,将MLLMs作为逐步控制器直接基于原始观测在具身控制中可能计算效率低下,尤其是在长程任务中Yue等(2024 (https://arxiv.org/html/2605.26256#bib.bib78))。因此,近期研究利用MLLMs作为高层规划器,用于预测抽象动作计划,例如未来航点Zhao等(2025 (https://arxiv.org/html/2605.26256#bib.bib59))或顺序动作计划Yang等(2025 (https://arxiv.org/html/2605.26256#bib.bib7)),而不是在每一步具身决策中都调用它们。
个性化具身智能体。个性化MLLMs旨在识别用户特定的视觉实体,超越通用实体Kim等(2026 (https://arxiv.org/html/2605.26256#bib.bib46));Nguyen等(2024 (https://arxiv.org/html/2605.26256#bib.bib44));Alaluf等(2024 (https://arxiv.org/html/2605.26256#bib.bib45))。例如,现成的MLLMTeam等(2023 (https://arxiv.org/html/2605.26256#bib.bib36));Bai等(2025 (https://arxiv.org/html/2605.26256#bib.bib35))可能只能识别出一只狗,而个性化MLLMNguyen等(2024 (https://arxiv.org/html/2605.26256#bib.bib44));Oh等(2026 (https://arxiv.org/html/2605.26256#bib.bib52))则期望识别出用户的狗。除了识别,近期工作还探索了检索增强的个性化,其中用户特定信息存储在外部分数据库中,并动态检索以提供个性化上下文Hao等(2025 (https://arxiv.org/html/2605.26256#bib.bib51));Das等(2025 (https://arxiv.org/html/2605.26256#bib.bib83))。多模态个性化的需求最近已扩展到具身智能体,要求智能体通过在物理环境中定位用户特定物体来解读用户指令Dai等(2024 (https://arxiv.org/html/2605.26256#bib.bib47));Lee等(2025 (https://arxiv.org/html/2605.26256#bib.bib41));Barsellotti等(2024 (https://arxiv.org/html/2605.26256#bib.bib43));Taioli等(2025 (https://arxiv.org/html/2605.26256#bib.bib86));Ziliotto等(2025 (https://arxiv.org/html/2605.26256#bib.bib39));Wang等(2026 (https://arxiv.org/html/2605.26256#bib.bib38))。这使问题从通用物体识别转变为识别用户意图的具体物体实例。然而,现有方法通常假设此类个性化引用是显式可得的,而在现实场景中它们往往是隐式的,必须从先前交互中推断出来。
记忆增强智能体。记忆模块支持(M)LLM智能体在有限上下文窗口之外进行长期交互Zhang等(2025c (https://arxiv.org/html/2605.26256#bib.bib62))。早期研究主要针对LLM智能体开发记忆系统Packer等(2023 (https://arxiv.org/html/2605.26256#bib.bib69));Chhikara等(2025 (https://arxiv.org/html/2605.26256#bib.bib68));Kang等(2025 (https://arxiv.org/html/2605.26256#bib.bib70));Yu等(2026 (https://arxiv.org/html/2605.26256#bib.bib84)),其中智能体主动管理记忆操作,如存储和检索过去信息。然而,由于这些方法以文本为中心,近期工作已将记忆扩展到纳入多模态观测Long等(2026 (https://arxiv.org/html/2605.26256#bib.bib42));Liu等(2025 (https://arxiv.org/html/2605.26256#bib.bib67))。尽管如此,维持连贯的长期多模态记忆仍然具有挑战性,因为智能体仍然难以修正过时记忆、追踪演化信息以及解决跨交互的冲突Xue等(2025 (https://arxiv.org/html/2605.26256#bib.bib54));Fu等(2026 (https://arxiv.org/html/2605.26256#bib.bib72));Liu等(2025 (https://arxiv.org/html/2605.26256#bib.bib67))。
## 3 个性化相似文章
PersonaVLM:长期个性化多模态大语言模型
PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。
先个性化再存储:面向长周期智能体的个性化记忆基准测试与学习
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。
从多模态经验中学会学习
本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
MEMOR-E:面向阿尔茨海默病辅助机器人的上下文与微调LLM个性化
本文介绍了MEMOR-E,一种配备平板界面的移动四足机器人,通过微调和上下文学习结合大语言模型,为阿尔茨海默病患者提供个性化、阶段感知的认知辅助,包括用药提醒和记忆互动,并具备可解释AI以便护理人员监督。