在对话前了解你:面向多轮对话中LLM个性化的用户状态建模
摘要
本文提出PUMA,一个用于多轮对话中LLM个性化的框架,该框架建模潜在用户状态,并利用自由能原理选择对话行为,在医疗咨询基准测试中提升了长程对话效果。
arXiv:2605.24647v1 公告类型:新
摘要:个性化对话不仅需要回忆显式的用户历史:系统还需要推断通过交互演化并塑造适当回应策略的隐藏用户状态。现有的基于记忆和配置文件的方法主要重用可观察的用户信息,对建模用户状态动态或根据用户状态未来演变选择行动的支持有限。我们提出PUMA(面向行动选择的预期性用户状态建模),一个基于自由能原理(FEP)的框架,将个性化建模为部分可观测条件下的决策问题,核心是一个显式用户状态模型,用于捕捉潜在用户状态及其行动条件动态。在每一轮对话中,PUMA维护关于用户隐藏状态的信念,优化用于生成观察和行动条件状态转移的用户状态模型,并通过最小化期望自由能选择对话行为,在统一标准下平衡认知和实用目标。这一形式化将个性化从被动的记忆检索转变为基于模型的用户演化决策。我们在面向医疗咨询和动机性访谈的基准测试上实例化PUMA,并附带潜在状态标注以进行严格评估。实验表明,PUMA在保持强响应质量的同时改善了长程对话效果,跨数据集研究显示更可靠的用户状态估计和下一状态预测。
查看缓存全文
缓存时间: 2026/05/26 09:05
# 在您开口之前了解您:多轮对话中面向大语言模型个性化的用户状态建模 来源:https://arxiv.org/html/2605.24647 Jiani Luo¹,Xiaoyan Zhao¹,Yang Zhang¹¹,Shuyi Miao²,Bingbing Xu³,Stefan Konigorski⁴,Tat-Seng Chua¹ ¹新加坡国立大学计算机学院 ²北京航空航天大学人工智能学院 ³中国科学院计算技术研究所 ⁴德国人类营养研究所波茨坦-雷布吕克 [email protected], [email protected], [email protected] ###### 摘要 个性化对话不仅需要回忆显式的用户历史记录:系统还需要推断在交互中演变并塑造适当响应策略的隐藏用户状态。现有的基于记忆和基于档案的方法主要重用可观察的用户信息,对建模用户状态动态或基于其如何塑造未来用户状态来选择行动的支持有限。我们提出PUMA(前瞻性用户状态建模用于行动选择),这是一个基于自由能原理(FEP)的框架,将个性化形式化为部分可观测条件下的决策问题,其核心是一个显式的用户状态模型,能够捕捉潜在用户状态及其行动条件化的动态。在每一轮对话中,PUMA维护对用户隐藏状态的信念,优化用于观测生成和行动条件化状态转移的用户状态模型,并通过最小化预期自由能——在统一标准下平衡认知目标和实用目标——来选择对话行动。这一表述将个性化从被动的记忆检索转变为基于模型的、关于用户演变的决策制定。我们在面向医疗健康咨询和动机性访谈的基准测试上实现了PUMA,这些基准测试带有潜在状态标注,便于进行严格评估。实验表明,PUMA在保持强响应质量的同时,改善了长周期对话结果,并且跨数据集研究显示出更可靠的用户状态估计和下一状态预测。我们的代码位于:https://github.com/Annie1161/PUMA。 ## 1 引言 个性化对话系统旨在长期交互中生成连贯、适应性强且针对特定用户的响应[55, 16, 2]。它们在个人助手、教育、医疗沟通、心理健康支持和长期决策支持等应用中非常重要,这些场景下有效的交互取决于对当前查询和用户不断变化的上下文的共同理解。最近的基于大语言模型的系统[56, 27, 54, 37, 51, 44]通过整合长期记忆、用户档案和检索到的交互历史,使模型能够重用显式的用户信息(如偏好、决策和先前的对话内容),从而推进了个性化。然而,长期个性化不能简化为回忆明确陈述的用户信息。相同的表述可能根据用户的潜在状态需要根本不同的响应[3]。考虑一个用户说:“我已经服用新药两周了。”恰当的响应取决于用户是对副作用感到焦虑、自信地跟踪进展、还是微妙地在考虑停药。这些差异反映了不确定性、参与度和行动准备等潜在因素[14],这些因素仅在语言中部分表达,但关键地影响了表述应如何被解释以及系统应如何回应[3, 35, 19]。因此,有效的个性化不仅需要跟踪用户说过什么,还需要推断隐藏的用户状态,并推理系统行动如何随时间影响这些状态的演变。这指向了对用户状态模型的需求——一种将用户视为潜在动态系统的预测性表示,其状态在系统干预下演变——作为长期个性化的基础。 现有的个性化对话系统从这个角度来看仍然有限。记忆增强和基于档案的方法[53, 13, 47, 42]作用于显式的文本记录,这使得它们能有效回忆稳定的事实,但不足以建模潜在状态演变。虽然一些方法引入了潜在变量,但这些表示通常是静态或描述性的,未能捕捉用户行为的连续且与行动相关的动态[39, 27, 17]。因此,现有系统隐含地将个性化视为一个检索或条件化问题,而不是一个关于部分可观测用户的序列决策问题。简而言之,当前方法要么完全缺乏用户状态模型,要么依赖于贫乏的、非预测性的替代品——使得对系统行动下用户演变的前瞻性推理遥不可及。 自由能原理(FEP)和主动推理[8, 5]为解决这一差距提供了原则性的决策理论基础。在FEP下,智能体通过在部分可观测环境中维护和更新对隐藏状态的信念,并通过最小化预期自由能(EFE)来选择行动,EFE平衡了不确定性减少(认知价值)和目标导向行为(实用价值)。由于EFE在行动条件化的动态上进行评估,行动的选择基于其即时效应和对未来状态信念的影响。这一公式自然与个性化对话相一致,其中用户是一个潜在的动态系统,系统响应作为干预措施塑造其演变。 基于这一视角,我们提出PUMA(前瞻性用户状态建模用于行动选择),一个基于FEP的个性化对话框架。PUMA的核心是一个用户状态模型,定义为对潜在用户状态及其行动条件化动态的预测模型,捕捉用户如何响应系统干预而演变。这超越了静态状态估计,通过显式建模对话行动引发的状态转移。在每一轮对话中,PUMA维护对用户潜在状态的信念和一个关于用户状态动态的世界模型,基于观测更新它们,并通过近似预期自由能来评估候选响应对未来状态的预期影响。这使得推理和控制能够在基于FEP的统一决策框架内联合进行。 这一公式将个性化从被动的记忆检索转变为基于模型的、关于用户演变的决策制定。与基于检索到的上下文或静态偏好选择响应不同,PUMA根据候选行动对未来用户轨迹的预期影响来评估它们,在单一原则性标准下平衡认知目标和实用目标。我们在医疗对话基准测试上实现了PUMA,这些基准测试提供了评估信念跟踪和长周期决策质量所需的潜在用户状态标注。实验结果表明,与强大的基于LLM的基线相比,显式建模用户状态动态并执行基于FEP的行动评估显著改善了用户状态跟踪和长周期对话性能。我们的主要贡献总结如下: - • 我们为个性化对话引入了一个用户状态模型,与先前工作中静态的人物、基于记忆或基于档案的表示不同,它捕捉了潜在用户状态及其在时间上的行动条件化演变。 - • 我们在自由能原理下形式化了个性化对话,并开发了PUMA,一个基于FEP的框架,通过预期自由能统一信念更新和行动选择,通过推理未来用户状态实现前瞻性决策制定。 - • 我们在医疗对话基准测试上实证评估了PUMA,其中基于FEP的用户状态建模和响应选择在信念跟踪和长周期对话结果上相对于强大的基于LLM的基线取得了持续改进。 ## 2 相关工作 ### 2.1 个性化对话系统 个性化对话系统旨在长期交互中生成连贯、适应性强且针对特定用户的响应。现有研究大致可分为基于档案的个性化、记忆增强对话系统、长上下文个性化和潜在变量对话建模。基于档案、记忆和长上下文的方法通过人物描述、偏好档案、结构化属性[56, 31, 55, 38, 22]、短期或长期记忆[48, 13, 47, 49, 57]或扩展的交互历史[32, 1, 15, 36, 29, 50, 30]来表示用户,并通过条件化、检索或长上下文提示注入这些信息,以重用过去的交互、陈述的偏好、决策和个人事实。同时,潜在变量和状态感知对话模型引入隐藏表示来捕捉隐式因素,如用户意图、情感、偏好、对话状态或对话目标[56, 52, 39, 28, 27]。这些方法通过认识到可观测的表达可能仅部分揭示用户的潜在状况,从而超越了纯粹显式的用户记录。 现有方法主要重用用户记录或上下文,对行动条件化的潜在状态动态支持有限。PUMA将潜在用户状态与记忆分开显式建模,从而能够进行主动的、状态感知的行动选择,超越被动的历史重用。 ### 2.2 自由能原理及其应用 自由能原理为不确定性下的自适应行为提供了原则性解释,将感知和行动视为对世界隐藏状态的统一推理过程[10, 7, 6]。根据这一观点,智能体从观测中更新信念,并采取行动使未来的观测更符合其偏好。主动推理通过根据预期自由能选择行动或策略来操作化这一过程,预期自由能整合了目标导向的价值与不确定性降低[9, 5]。这一视角已扩展到机器人学、强化学习、控制论和AI智能体,强调部分可观测性下的信念更新和不确定性感知规划[20, 12, 24, 4]。最近的工作进一步将主动推理与面向人类的LLM和交互系统联系起来,包括可靠的医疗提示[33]、主动偏好学习和推理[21, 25, 18]以及人机交互建模[23]。 现有的FEP启发的系统主要将主动推理应用于外部环境、任务状态或相对稳定的人类相关变量,很少将演变的用户状态本身作为建模目标。相比之下,PUMA将FEP应用于个性化对话,通过使时间上连续且对行动敏感的用户状态成为主动推理建模的核心对象。 ## 3 预备知识 自由能原理(FEP)起源于理论神经科学和认知科学,解释了生物智能体在与外部环境交互时如何通过感知、学习和行动进行适应[8, 9]。该原理通常通过两个相关目标来操作化:用于回顾性信念更新和当前状态下内部世界模型更新的变分自由能 \(F_t\)(第3.1节),以及用于前瞻性行动选择的预期自由能 \(G_t\)(第3.2节)。下面我们简要介绍这两个目标。 ### 3.1 用于信念和世界模型更新的变分自由能 FEP将智能体视为与部分可观测环境交互,其中隐藏状态 \(s_t\) 生成观测 \(o_t\) 但无法直接访问。因此,智能体维护两个内部量:对隐藏状态的信念,代表其对隐藏状态当前不确定的理解;以及关于环境如何工作的世界模型。收到观测后,智能体更新其对隐藏状态的信念,并精炼其内部世界模型以更好地解释观测。变分自由能 \(F_t\) 为此过程提供了一个标量目标。通常,它评估智能体的近似信念 \(q(s_t)\) 和世界模型 \(p(o_t, s_t)\) 在不确定性下解释观测的程度: \[ F_t = \mathbb{E}_{q(s_t)} \left[ \log q(s_t) - \log p(o_t, s_t) \right]. \] 最小化 \(F_t\) 支持信念更新和世界模型学习,从而获得对用户状态更合理的信念和对环境潜在动态更准确的描述。 ### 3.2 用于行动选择的预期自由能 变分自由能关注接收观测后的信念和模型更新,而行动选择需要对尚未发生的结果进行推理。预期自由能 \(G_t(\pi)\)
相似文章
PersonaVLM:长期个性化多模态大语言模型
PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。
学习可转移的潜在用户偏好以实现与人类一致的决策
本文介绍CLIPR,一个从最少的对话输入中学习可转移的潜在用户偏好的框架,以改进LLM中与人类一致的决策。
在长期用户交互中个性化具身多模态大语言模型智能体
本文提出Polar,一种多模态记忆增强框架,用于在长期用户交互中个性化具身MLLM智能体,利用知识图谱和情景记忆从累积上下文中定位用户意图的实例。
超越合作模拟器:为LLM代理的稳健评估生成逼真的用户角色
提出了Persona Policies(PPol),一种即插即用的控制层,利用LLM驱动的进化程序搜索来生成多样且逼真的用户角色,用于评估LLM代理。相比基线实现了33-62%的适应度提升,逼真度评分达到80.4%,并将代理鲁棒性提升了+17%的任务成功率。
Ψ-Bench:评估说服性对话中的人设敏感影响
介绍Ψ-Bench,一个用于评估大语言模型通过带有个人档案的说服性对话影响用户能力的基准。测试了10个前沿LLM,发现仍有显著改进空间,而访问档案平均提升18.24%的性能。