学习可转移的潜在用户偏好以实现与人类一致的决策

arXiv cs.AI 2026/05/14 04:00 论文

human-aligned preference-learning llm decision-making transfer-learning conversational-ai

摘要

本文介绍CLIPR，一个从最少的对话输入中学习可转移的潜在用户偏好的框架，以改进LLM中与人类一致的决策。

arXiv:2605.12682v1 公告类型：新摘要：大型语言模型（LLM）越来越多地被用作许多应用中的推理模块。尽管它们在特定任务上高效，但LLM往往难以产生与人类一致的解决方案。与人类一致的决策需要考虑明确陈述的目标以及塑造模糊情境解决方式的潜在用户偏好。现有纳入此类偏好的方法要么依赖大量重复的用户交互，要么无法跨任务和上下文泛化潜在偏好，限制了其实用性。我们考虑一种场景，其中LLM用于高级推理，并负责从有限交互中推断潜在用户偏好，从而指导下游决策。我们介绍了CLIPR（用于推断偏好和推理的对话学习），一个从最少的对话输入中学习可操作、可转移的自然语言规则以代表潜在用户偏好的框架。这些规则通过自适应反馈迭代优化，并应用于跨多个环境分布内和分布外的模糊任务。在三个数据集和一项用户研究上的评估表明，CLIPR在改善对齐和降低推理成本方面始终优于现有方法。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 06:13

# 学习可迁移的潜在用户偏好以实现与人类一致的决策 来源: https://arxiv.org/html/2605.12682 ###### 摘要 大型语言模型（LLMs）越来越多地被用作各种应用中的推理模块。尽管它们在特定任务上高效，但LLMs通常难以产生与人类一致的解决方案。与人类一致的决策需要同时考虑明确陈述的目标和影响模糊情境如何解决的潜在用户偏好。现有融入此类偏好的方法要么依赖广泛且重复的用户交互，要么无法在不同任务和上下文中泛化潜在偏好，限制了其实用性。我们考虑一种场景，其中LLM用于高层推理，并负责从有限交互中推断潜在用户偏好，从而指导下游决策。我们提出CLIPR（用于推断偏好和推理的对话学习），这是一种框架，通过最少的对话输入学习可操作、可迁移的自然语言规则，这些规则代表潜在用户偏好。这些规则通过自适应反馈迭代精炼，并应用于多个环境中分布内和分布外的模糊任务。在三个数据集和一项用户研究上的评估表明，CLIPR在提高对齐度和降低推理成本方面持续优于现有方法。 ## 1 引言 大型语言模型（LLMs）越来越多地被用作面向人类系统的决策模块，从虚拟助手到个人机器人（Han et al., 2025 (https://arxiv.org/html/2605.12682#bib.bib1); Rana et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib14)）。在这些系统中，LLMs被用于支持各种能力，如高层任务规划和移动操作（Kim et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib41)）、提取语义知识用于物体摆放（Ding et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib34)）、生成可执行动作脚本和策略代码（Liang et al., 2022 (https://arxiv.org/html/2605.12682#bib.bib33)），以及在多重约束下进行规划（Irpan et al., 2022 (https://arxiv.org/html/2605.12682#bib.bib16); Singh et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib15)）。尽管在推理能力上有所进步，基于LLM的系统在存在多个有效动作但只有其中一个符合用户偏好的场景中常常难以应对。例如，用户请求“给我的三明治配点喝的”存在多个有效回答：冰绿茶、水、咖啡（图1 (https://arxiv.org/html/2605.12682#S1.F1)）。用户查询中的歧义很常见，尤其是来自缺乏提示经验和与LLM先前交互的用户（Wang et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib42)）。虽然LLM可以识别所有四个选项都是有效的，但它无法确定哪一个更受欢迎，除非有关于用户的额外知识，例如对冷饮的潜在偏好。缺乏此类偏好信息时，在有效动作中的选择实际上是任意的（例如，近乎均匀分布），导致不一致或次优的结果。这种行为也源于对用户查询和意图的错误解读，这是由于对人类偏好和推理的过度简化内部模型（Carroll et al., 2019 (https://arxiv.org/html/2605.12682#bib.bib47); MacMahon et al., 2006 (https://arxiv.org/html/2605.12682#bib.bib45); Zhang and Soh, 2023 (https://arxiv.org/html/2605.12682#bib.bib44)），并且在陌生或分布外场景中进一步加剧（Agrawal, 2022 (https://arxiv.org/html/2605.12682#bib.bib43)）。解决这一问题需要能够推断用户隐含偏好的方法，而不仅仅是明确正确的内容。 现有的改善对齐的方法，包括RLHF（Song et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib13); Yuan et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib12); Poddar et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib10)）、上下文学习（Dong et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib4)）以及零样本和少样本方法（Hejna and Sadigh, 2023 (https://arxiv.org/html/2605.12682#bib.bib52); Zhao et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib11)），通常计算效率低，对偏好结构施加限制性假设，并依赖过度简化的人类行为模型（Ghose et al., 2026 (https://arxiv.org/html/2605.12682#bib.bib54); Zhong et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib55)）。通过主要依赖间接信号如排序或示范，它们未能充分利用LLM通过动态自然语言交互推断意图的能力。这在人机交互环境中是一个关键限制，因为有效的个性化需要与用户沟通目标和约束的方式一致的自然界面（Dautenhahn, 2007 (https://arxiv.org/html/2605.12682#bib.bib38); Zhang et al., 2025 (https://arxiv.org/html/2605.12682#bib.bib39); Whelan et al., 2018 (https://arxiv.org/html/2605.12682#bib.bib36)）。 为了弥补这些差距，我们提出CLIPR（用于推断偏好和推理的对话学习），这是一个基于LLM的框架，用于自然的、语言驱动的偏好学习，以实现与人类一致的决策。CLIPR通过与用户交互获取偏好信息，并将其编码为可操作的自然语言规则，这些规则能够跨环境和任务泛化（图1 (https://arxiv.org/html/2605.12682#S1.F1)）。这种交互使模型能够捕获复杂依赖关系和用户偏好的嵌套性质，同时最小化用户的认知负担。我们扩展CLIPR以包含自适应反馈（Adaptive CLIPR），通过基于遇到的场景和预期改进的动态反馈和偏好更新来支持学习规则的持续精炼，从而随时间提高对齐度（图2 (https://arxiv.org/html/2605.12682#S3.F2)）。本文的主要贡献是：(1) 一个基于自然语言的框架，用于从最小交互中学习结构化的用户偏好作为规则；(2) 一个自适应交互机制，通过自然语言对话选择性请求反馈，并增量更新偏好规则以提高对齐度；(3) 在三个数据集和一项30名参与者的用户研究上的实证评估表明，CLIPR能够泛化到分布外环境而无需重新训练，在初始偏好规则缺失或矛盾时保持鲁棒性，并将学习到的规则跨LLM迁移，准确度损失极小，同时将LLM调用次数相较于最先进的基线减少高达94%。 参见说明图1：将用户偏好的对话学习转换为偏好规则的概述，这些规则在推理时用于回答用户查询。 ## 2 相关工作 LLMs用于人类行为建模 先前的工作已使用LLMs对人类行为进行建模，以实现人类感知的决策（Ritschel et al., 2017 (https://arxiv.org/html/2605.12682#bib.bib6); Mahadevan et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib23)）。这包括使用LLMs学习和表示用户心理模型（Gebellí et al., 2025 (https://arxiv.org/html/2605.12682#bib.bib29)）、模拟和近似人类行为以实现人类感知的运动规划器（Li et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib27); Sisbot et al., 2007 (https://arxiv.org/html/2605.12682#bib.bib18); Park et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib25)），以及对模糊的自然语言查询进行推理以确保安全任务执行（Yang et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib30)）。LLMs还被用于建模和估计不确定性，并在不确定环境中进行推理，包括何时寻求人类帮助（Ren et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib28)）。 用户偏好学习 当偏好表示需要更可控或可验证时，LLMs已被用于在空间规划和移动操作中生成符号谓词（Han et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib17)），或生成奖励函数（Xie et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib40); Peng et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib7)）。为了克服特定任务中的歧义，最近的一项工作提出构建一个知识库，其中包含人类选择的合规计划的总结性合理化解释（Liang et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib5)）。然而，它并未提供一种鲁棒机制来规范和学习个体非平凡的偏好。虽然一些先前的工作引入了更自然的、基于交互的偏好引出方法（Bärmann et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib24); Han et al., 2025 (https://arxiv.org/html/2605.12682#bib.bib1); Abdo et al., 2015 (https://arxiv.org/html/2605.12682#bib.bib50)），但其偏好表示往往是非结构化的，阻碍了泛化能力。最近的一项工作使用LLMs生成一组直接的规则来表示用户偏好（Wu et al., 2023 (https://arxiv.org/html/2605.12682#bib.bib2)），但泛化能力鼓励记忆，并且难以捕获复杂的或依赖上下文的偏好。一个值得注意的例外是CIPHER（Gao et al., 2024 (https://arxiv.org/html/2605.12682#bib.bib9)），它通过自然语言反馈学习用户偏好，无需少量正确响应的示范，而是通过对用户期望与所选动作之间的差异进行推理。然而，由于其持续需要反馈，导致计算成本高昂，并且没有利用任何关于用户的先验知识或过去示例。相比之下，我们提出一种方法，可以从偏好中提取可操作的规则，使得这些规则能够泛化到一系列任务。 ## 3 潜在用户偏好的交互式学习 我们考虑一个场景，其中任务通过自然语言查询指定。LLM负责解释用户请求，并从预定义的候选动作集中选择满足查询的动作。形式上，LLM接收一个自然语言用户请求 x x 以及一组候选动作 A_x = {a_1, a_2, ..., a_k}。其中一部分候选动作，C(x) ⊆ A_x，是正确的动作，表示那些满足请求明确要求的动作。然而，并非所有正确动作都同样可取。一个偏好的动作 a* ∈ C(x) 是一个正确动作，同时也符合用户的潜在偏好。我们提出CLIPR（用于推断偏好和推理的对话学习）来通过学习用户偏好作为一组代表性规则来改善对齐。CLIPR学习用户偏好的协议定义在算法1 (https://arxiv.org/html/2605.12682#algorithm1)中。 输入：示例集 S，最大交互次数 T，语言模型 M 输出：偏好规则 R 1 2 D ← ∅ 3 4 for t=1 to T do 5 P ← AnalyzeExamples(S, D, M) // 未指定的偏好维度 6 if IsSufficient(P, D, M) = false then 7 q_t ← GenerateQuestionForUser(P, D, M) 8 a_t ← CollectUserResponse(q_t) 9 D ← D ∪ {(q_t, a_t)} 10 11 12 R ← SynthesizeRules(D, S, M) 13 return R 算法1 CLIPR 示例集初始化：CLIPR以一个小的示例集S初始化，该集合近似于智能体将协助用户完成的任务。这个集合不需要覆盖所有可能的任务，但应该传达智能体的总体目标和预期交互的性质。关键是，S中的候选动作必须包含C(x)中有多个动作都正确的情况，但潜在用户偏好决定了首选动作a*。在我们关于为三明治配饮料的运行示例中，S应该包含与饮料相关的任务，并有多种选项（例如，冰绿茶、水、酒精、热咖啡），其中偏好（如喜欢冷的非酒精饮料）将决定理想的选择。注意，在示例集S中，偏好或首选动作a*从未暴露给LLM。 交互式偏好引出：给定S，CLIPR迭代分析S中的示例以及当前的对话历史D，以识别哪些偏好维度仍未指定（算法1第3行）。具体来说，AnalyzeExamples提示LLM检查S，将其与D中已经询问的内容进行对比，并生成一个结构化的偏好维度集合P，这些维度与S相关但未被D解决。偏好维度是动作的一个属性，其值影响用户偏好的选项（例如，在提供饮料时，温度、甜度或健康程度）。如果S中至少有一个场景呈现了沿该维度变化的动作，并且D中先前的交流未确定用户希望如何处理该维度，则该维度是P中的候选。例如，如果D已经包含用户偏好冷饮的信息，那么只需要引出甜度和健康度的偏好。这一步将问题生成锚定在示例集上，而不是LLM对用户偏好的先验知识上，确保问题针对的是智能体在推理时实际需要使用的维度。 给定指定与用户交互最大次数的交互预算T，LLM使用P以及D来决定下一步探测哪个维度。向用户提问的一个例子是：“对于零食和食物选择，你通常更喜欢健康的选择（如新鲜水果、酸奶），还是更倾向于放纵的零食（如饼干、巧克力）？”用户可能会回答：“是的，绝对是更健康的选择。我在节食，所以尽量吃健康的食物，但我确实喜欢甜食。如果可能的话，我更喜欢既甜又健康的选择。”每个问答对都被添加到D（第7行），这个过程重复直到达到T或直到IsSufficient返回true。IsSufficient作为LLM的自我判断实现：在每个轮次，模型决定是否有足够的信息来写出用户的完整偏好，并通过一个指定的控制令牌发出完成信号。例如，在饮料场景中，当关于温度、甜度和健康度的查询得到一致回答后，LLM确定进一步的查询将是多余的，并终止反馈收集。当IsSufficient为true时，表示P中的所有偏好维度都已被D解决（第4行）。交互完成后，LLM使用D和S中的信息来综合一个明确的编号列表，其中包含偏好规则。

学习可转移的潜在用户偏好以实现与人类一致的决策

相似文章

CLIPer：通过分类器引导的推理时个性化定制多样化用户偏好

WildFeedback: 通过原位用户交互和反馈对齐大语言模型

基于对比 LLM 微调对齐对话附和信号与语境表征

PersonaVLM：长期个性化多模态大语言模型

跨会话个性化工具调用的潜在偏好建模

提交意见反馈