对话推荐系统中用户模拟的提示优化:一个多目标框架
摘要
本文提出了一种框架,用于自动优化基于LLM的对话推荐系统用户模拟器的提示,解决了正向偏差和行为多样性有限等问题。
arXiv:2607.00010v1 公告类型:cross
摘要:对话推荐系统(CRS)是下一代智能推荐系统的核心组成部分,因为它们使用户能够主动表达偏好、明确意图并实时调整推荐。然而,CRS领域存在两个关键障碍:评估和训练数据的获取。与传统推荐系统相比,通过真实人类研究来评估CRS更为重要,但这类研究既昂贵又耗时。此外,由于隐私问题,CRS交互数据往往难以获取用于模型训练。基于大语言模型(LLM)的用户模拟器在解决这两个挑战方面显示出潜力,它们可以生成合成用户交互用于评估和训练。然而,现有方法存在系统性正向偏差、数据泄露和行为多样性有限的问题,并且依赖于脆弱的手动提示工程,这需要广泛的领域专业知识。在本文中,我们提出了一种框架,用于自动优化CRS中基于LLM的用户模拟器的提示,同时缓解这些问题。实验结果表明,与基线方法相比,所提出的框架在各种提示设置下实现了与人类交互模式更好的行为对齐。
查看缓存全文
缓存时间: 2026/07/02 05:41
# 对话推荐系统中用户模拟的提示优化:一个多目标框架 来源:https://arxiv.org/html/2607.00010 ###### 摘要 对话推荐系统(CRS)是下一代智能推荐系统的核心组成部分,因为它们使用户能够主动表达偏好、澄清意图并实时调整推荐。然而,CRS领域存在两个关键障碍:评估和训练数据的获取。通过真实人类研究评估CRS比传统推荐系统更为关键,但此类研究既昂贵又耗时。此外,由于隐私问题,CRS交互数据通常难以获取用于模型训练。基于大语言模型(LLM)的用户模拟器通过生成用于评估和训练的合成用户交互,在应对这两大挑战方面显示出潜力。然而,现有方法存在系统性正向偏差、数据泄露和行为多样性受限的问题,并且依赖于脆弱的手动提示工程,需要大量领域专业知识。在本文中,我们提出了一个框架,用于自动优化CRS中基于LLM的用户模拟器的提示,同时缓解这些问题。实验结果表明,与基线方法相比,所提出的框架在不同提示设置下实现了与人类交互模式更好的行为对齐。 ## I. 引言 推荐系统[5(https://arxiv.org/html/2607.00010#bib.bib16),12(https://arxiv.org/html/2607.00010#bib.bib17)]在信息检索中发挥着关键作用,使用户能够高效地发现相关项目、内容和信息。这些系统既带来用户价值,也产生商业影响,并持续推动着学术界和工业界的浓厚兴趣[34(https://arxiv.org/html/2607.00010#bib.bib15),5(https://arxiv.org/html/2607.00010#bib.bib16),26(https://arxiv.org/html/2607.00010#bib.bib47),32(https://arxiv.org/html/2607.00010#bib.bib49)]。对话推荐系统(CRS)通过使用自然语言与用户交互来推断用户偏好及其背后的原因,从而增强了这一能力。CRS允许用户表达偏好、交互式地探索选项并提供细粒度的反馈[6(https://arxiv.org/html/2607.00010#bib.bib20),35(https://arxiv.org/html/2607.00010#bib.bib13)],这与传统推荐系统有本质区别,并已被公认为大语言模型(LLM)时代下一代智能推荐系统的核心组成部分[10(https://arxiv.org/html/2607.00010#bib.bib21),23(https://arxiv.org/html/2607.00010#bib.bib43),6(https://arxiv.org/html/2607.00010#bib.bib20)]。 对话推荐系统通常在部署前需要大量用户测试,这在工业开发流程中造成了昂贵且耗时的瓶颈,因为评估依赖于真实用户与系统交互。此外,收集对话数据会引发隐私问题,阻碍了在受监管环境(例如医疗和金融领域)中的部署。用户模拟器为这些挑战提供了一个有前景的解决方案,能够在不与真实用户进行大量交互的情况下,实现对CRS的可扩展、低成本且保护隐私的评估和训练。 用户模拟器是自动化的智能体,通过在推荐对话中生成近似真实用户行为的响应,来模拟人类交互模式。基于LLM的用户模拟器在这一LLM时代展现出巨大潜力,它们作为合成用户模拟器,能在不同用户群体和交互背景下为推荐系统提供可重复、成本效益高的用户模拟[1(https://arxiv.org/html/2607.00010#bib.bib40),21(https://arxiv.org/html/2607.00010#bib.bib2),2(https://arxiv.org/html/2607.00010#bib.bib36),16(https://arxiv.org/html/2607.00010#bib.bib39),27(https://arxiv.org/html/2607.00010#bib.bib61)]。 现有的LLM用户模拟器可以分为基于微调/训练的方法[3(https://arxiv.org/html/2607.00010#bib.bib58),37(https://arxiv.org/html/2607.00010#bib.bib3),36(https://arxiv.org/html/2607.00010#bib.bib1)]和基于提示的方法[28(https://arxiv.org/html/2607.00010#bib.bib10),38(https://arxiv.org/html/2607.00010#bib.bib55),39(https://arxiv.org/html/2607.00010#bib.bib57),14(https://arxiv.org/html/2607.00010#bib.bib60),4(https://arxiv.org/html/2607.00010#bib.bib30)]。在本文中,我们专注于基于提示的模拟器,因为与需要微调大语言模型的基于训练/微调的方法相比,它们更具成本效益。基于LLM的用户模拟器通过接收结构化的用户画像和推荐项作为输入,生成近似真实用户行为的自然语言响应。在基于提示的模拟器中,这种行为完全通过提供给冻结LLM的指令来控制,无需修改模型权重,这与需要大量标注数据和显著计算资源的微调方法形成对比,后者在隐私敏感或资源受限的场景中不切实际。 当前基于提示的LLM用户模拟器面临三个关键挑战,限制了它们在对话推荐系统中的实际部署: (1)**系统性正向偏差**:基于LLM的模拟器表现出不切实际的高接受率,生成压倒性的正面响应,无法捕捉真实的拒绝行为。例如,在电影推荐场景中,基于LLM的模拟器倾向于接受大多数建议,无论用户偏好如何,而真实用户会拒绝近一半的推荐项[28(https://arxiv.org/html/2607.00010#bib.bib10),35(https://arxiv.org/html/2607.00010#bib.bib13)]。 (2)**数据泄露**:与机器学习中标准的训练测试泄漏不同,用户模拟中的数据泄露发生在用户画像历史项作为项目提及逐字出现时。模拟器不是基于真实偏好进行推理,而是将这些项目原封不动地回显在响应中,夸大了表面准确性,人为抑制了多样性指标,从而歪曲了模拟器的真实能力[38(https://arxiv.org/html/2607.00010#bib.bib55),28(https://arxiv.org/html/2607.00010#bib.bib10)]。 (3)**严重受限的行为多样性**:模拟器表现出流行度偏差,过度偏爱知名的主流项目而非小众内容,以及时间聚类,将推荐集中在狭窄的时间窗口内。这导致项目提及变得同质化,无法捕捉真实用户群体的多样化偏好,限制了它们在评估不同用户画像的推荐系统时的有效性[35(https://arxiv.org/html/2607.00010#bib.bib13),37(https://arxiv.org/html/2607.00010#bib.bib3),22(https://arxiv.org/html/2607.00010#bib.bib7)]。 虽然基于提示的模拟器更易获取,但其性能对提示质量高度敏感[30(https://arxiv.org/html/2607.00010#bib.bib4),9(https://arxiv.org/html/2607.00010#bib.bib32),24(https://arxiv.org/html/2607.00010#bib.bib46)],而最近的框架在同时解决所有三个挑战方面缺乏全面的方案[39(https://arxiv.org/html/2607.00010#bib.bib57),3(https://arxiv.org/html/2607.00010#bib.bib58),14(https://arxiv.org/html/2607.00010#bib.bib60)]。因此,在自动优化模拟器行为以实现真实行为模式的原则性方法方面,仍然存在一个关键空白。除了CRS评估之外,这项工作还解决了LLM驱动数据工程中的一个核心挑战:如何自动生成、优化和验证大规模合成行为数据。 为了解决这些问题,我们提出了一个框架,实现了对模拟用户画像和响应模式的联合优化,同时克服了这三个挑战。此外,该框架还通过基于可解释文本梯度的自动提示优化,避免了繁重的手动提示工程。在本文中,我们做出了以下贡献。 - •**提出优化框架**:据我们所知,我们是第一个提出自动优化CRS中基于LLM的用户模拟器提示的框架,同时克服了这三个挑战。 - •**解决挑战**:在该框架中,我们设计了基于熵和文本梯度的评分函数,解决了正向偏差和流行度偏差问题。此外,我们设计了一种画像摘要方法,在保留基本画像信息的同时减少数据泄露的影响。为了评估模拟器克服过度接受偏差的能力,我们提出了NegFeedback,一种专门设计用来评估负面用户反馈正确性和合理性的概念验证指标。 - •**改进行为对齐**:我们展示了与GPT-3.5和GPT-4基线相比,在本地使用Llama3.3执行时,与人类交互模式的行为对齐得到了改善。我们进一步使用基于LLM的评估器和人类评估器对提出的指标NegFeedback进行了验证。LLM评估器使我们能够扩展评估,其与人类判断的一致性证明了LLM评估器的有效性。 ## II. 相关工作 在本节中,我们围绕关键挑战组织我们的综述,为我们的方法奠定基础。 ### II-A LLM在推荐系统中的用户模拟 最近的实现展示了在生成类人响应和维护一致用户画像方面的显著进展。许多研究探索了适用于推荐场景的LLM驱动的模拟器,这些模拟器利用上下文理解,并将人格特征和人口统计特征纳入用户建模,以生成更真实的用户交互[21(https://arxiv.org/html/2607.00010#bib.bib2),36(https://arxiv.org/html/2607.00010#bib.bib1),15(https://arxiv.org/html/2607.00010#bib.bib12),31(https://arxiv.org/html/2607.00010#bib.bib11)]。然而,现有实现主要依赖手动提示工程,研究人员基于直觉和有限的实验构建静态模板[28(https://arxiv.org/html/2607.00010#bib.bib10),30(https://arxiv.org/html/2607.00010#bib.bib4)]。这种手动方法导致了几个根本问题:提示在不同领域间的脆弱性、无法系统优化以匹配真实用户行为、以及缺乏纳入领域特定要求的原则性方法。最近的综合综述[25(https://arxiv.org/html/2607.00010#bib.bib14),12(https://arxiv.org/html/2607.00010#bib.bib17)]承认了这些局限性,但未提供用户模拟场景中提示优化的系统解决方案。手动方法的可扩展性挑战进一步凸显了用户模拟中自动提示优化的需求。随着推荐系统变得越来越复杂和多样化,为每个领域和用户类型手动构建提示变得越来越不切实际。 ### II-B LLM的提示优化与工程 最近的自动提示优化(APO)方法包括基于梯度、进化和基于强化学习的方法[11(https://arxiv.org/html/2607.00010#bib.bib31),18(https://arxiv.org/html/2607.00010#bib.bib33)]。TextGrad[29(https://arxiv.org/html/2607.00010#bib.bib35)]代表了一项重要进展,它通过基于目标LLM自身文本反馈的迭代优化来优化提示。这种黑盒方法提供了关键优势:(1)无需模型访问即可支持模型优化;(2)允许动态的领域特定适应。然而,现有的APO方法尚未解决用户模拟的挑战。当前APO方法的应用集中在具有明确成功指标的传统NLP任务上,而用户模拟需要处理冲突的行为目标、超越简单准确性的复杂行为模式以及真实的人类行为多样性。 ### II-C 评估指标与反馈机制 现有的用户模拟评估依赖于表面级别的NLP指标(例如BLEU、F1),这些指标忽略了行为保真度,例如真实的接受率和信息性的拒绝[38(https://arxiv.org/html/2607.00010#bib.bib55),33(https://arxiv.org/html/2607.00010#bib.bib56),3(https://arxiv.org/html/2607.00010#bib.bib58)]。虽然最近的工作承认了这些差距,但缺乏系统的方法来评估拒绝质量或与人类行为的一致性[39(https://arxiv.org/html/2607.00010#bib.bib57),3(https://arxiv.org/html/2607.00010#bib.bib58)]。这些差距促使我们开发了NegFeedback,一个概念验证指标,旨在评估用户模拟场景中用户拒绝的真实性和合理性质量。 ### II-D 基于LLM的用户模拟中的偏差与泄露问题 基于LLM的模拟器遭受系统性的正向偏差,导致不切实际的高接受率和偏向流行度的响应[19(https://arxiv.org/html/2607.00010#bib.bib5),7(https://arxiv.org/html/2607.00010#bib.bib8),13(https://arxiv.org/html/2607.00010#bib.bib6)]。提示敏感性加剧了这些问题,而数据泄露允许访问目标项,破坏了评估的完整性[38(https://arxiv.org/html/2607.00010#bib.bib55)]。现有方法缺乏将模拟器行为与人类模式对齐的原则性工具。我们的框架将自动提示调优与偏差校正相结合,以应对这些挑战并提高行为保真度。 参见图标题: 图1:基于自动提示调优的用户模拟器优化流程 ## III. 我们的框架 与CRS中现有的基于LLM的用户模拟器相比,我们的框架利用TextGrad[29(https://arxiv.org/html/2607.00010#bib.bib35)]实现自动提示优化,从而避免了繁重的提示工程。为了有效适应CRS中的用户模拟任务,我们的框架优化的是行为保真度而非语言相似性。此外,我们的框架引入了基于熵和文本梯度的评分函数,指导模型自动优化提示,以克服正向偏差和流行度偏差。我们还设计了一种画像摘要方法,在降低数据泄露风险和保留基本画像信息之间取得良好平衡。最后,我们提出了一个新设计的指标(将经过仔细验证),用于评估模拟器的拒绝质量,以衡量其克服过度接受偏差的能力。该框架基于本地LLM Ollama的Llama-3.3-70B,以保护隐私的执行方式运行。 图1(https://arxiv.org/html/2607.00010#S2.F1)展示了我们方法的整体流程。该过程首先从Amazon数据集(第IV-A节(https://arxiv.org/html/2607.00010#S4.SS1))中提取原始用户交互历史。然后利用这些历史生成和总结用户画像(第III-B节(https://arxiv.org/html/2607.00010#S3.SS2))。根据生成的画像,构建任务特定的初始评估提示(第III-E节(https://arxiv.org/html/2607.00010#S3.SS5))。随后使用TextGrad优化循环(第III-D节(https://arxiv.org/html/2607.00010#S3.SS4))执行自动提示调优,以跨任务优化模拟器行为。 ### III-A 通过基于熵的多样性指标进行偏差校正 LLM模拟器表现出系统性偏差,损害了评估的有效性:正向偏差(过度接受...
相似文章
SalesSim:基准测试并对齐多模态语言模型作为零售用户模拟器
本文介绍了 SalesSim,这是一个用于评估多模态大型语言模型(MLLM)作为零售用户模拟器的框架和基准,旨在揭示角色对齐方面的不足,并提出了一种名为 UserGRPO 的新型强化学习方法。
通过引导进行嵌入:系统提示贝叶斯优化的动态表示
介绍ReElicit,一个贝叶斯优化框架,利用大型语言模型(LLM)来引导和调整特征空间,在聚合标量反馈下优化系统提示,在十个基准任务上取得了强劲性能。
基于环境的LLM游戏智能体自动提示优化
介绍了一个针对LLM游戏智能体的自动提示优化框架,该框架将观察-行动流水线分解为两个智能体,并通过环境回报引导的进化循环迭代优化提示。在BabyAI任务上评估,显著提高了成功率(例如,在PutNext上从0%提升到72.5%),且无需更新模型权重。
自监督提示优化
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。
使用认知模型改进语言模型对人类说服游戏的模拟
本文提出方程到行为提示和强化学习,引导大型语言模型模拟说服游戏中多样的人类决策模式,显示出改进的信念准确性和训练结果。