跨会话个性化工具调用的潜在偏好建模

Hugging Face Daily Papers 论文

摘要

引入 MPT 基准和 PRefine 方法,用于跨会话个性化工具调用,以极低 token 开销捕捉用户选择背后的推理。

用户在与基于 LLM 的智能体交互时,常常遗漏关键信息,导致工具调用的输入不够明确。这对工具增强型智能体构成根本挑战,因为 API 执行通常需要完整参数,从而凸显了个性化工具调用的必要性。为研究该问题,我们推出 MPT 基准,包含 265 段多会话对话,涵盖三大挑战:偏好回忆、偏好归纳与偏好迁移。我们还提出 PRefine,一种测试时记忆增强方法,将用户偏好表示为动态演化的假设。通过“生成—验证—精炼”循环,从历史中提取可复用约束,在仅使用完整历史提示 1.24% token 的情况下提升工具调用准确率。实验表明,智能体系统的稳健个性化依赖于能够捕捉用户选择背后“原因”的记忆,而不仅仅是选择本身。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 11:27

论文页面 - 跨会话个性化工具调用的潜在偏好建模

来源:https://huggingface.co/papers/2604.17886

摘要

通过记忆增强方法,LLM 智能体的个性化工具调用得以改进:该方法不仅记录用户的选择,更捕捉选择背后的理由,且额外 token 开销极低。

用户向 LLM 智能体发起请求时,常遗漏关键细节,导致工具输入欠规范。这对工具增强型智能体(https://huggingface.co/papers?q=tool-augmented%20agents)构成根本挑战,因为 API 执行(https://huggingface.co/papers?q=API%20execution)通常需要完整参数,从而凸显个性化工具调用(https://huggingface.co/papers?q=personalized%20tool%20calling)的必要性。为研究该问题,我们推出 MPT 基准,包含 265 段多会话对话(https://huggingface.co/papers?q=multi-session%20dialogues),涵盖三大挑战:偏好回忆(https://huggingface.co/papers?q=Preference%20Recall)、偏好归纳(https://huggingface.co/papers?q=Preference%20Induction)与偏好迁移(https://huggingface.co/papers?q=Preference%20Transfer)。我们还提出 PRefine(https://huggingface.co/papers?q=PRefine),一种测试时的记忆增强方法,将用户偏好(https://huggingface.co/papers?q=user%20preferences)表示为动态演化的假设。通过“生成—验证—精炼”循环(https://huggingface.co/papers?q=generate–verify–refine%20loop),从历史中提取可复用的约束,在仅消耗全历史提示 1.24% token 的情况下提升工具调用准确率。结果表明,智能体系统的稳健个性化依赖于能够记录“用户为何如此选择”的记忆,而不仅仅是“用户选择了什么”。

查看 arXiv 页面(https://arxiv.org/abs/2604.17886)
查看 PDF(https://arxiv.org/pdf/2604.17886)
项目主页(https://still-with-you.github.io/pages/prefine/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.17886)

在您的智能体中获取本文:

hf papers read 2604.17886

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

创建新合集 并将该论文加入,即可在此页面显示链接。

相似文章

FSPO:少样本合成偏好优化实现面向真实用户的个性化

arXiv cs.CL

FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。

PersonaVLM:长期个性化多模态大语言模型

Hugging Face Daily Papers

PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。

多智能体协商中基于对手建模的偏好估计

arXiv cs.CL

本文提出了一种新颖的偏好估计方法,将大型语言模型(LLM)的自然语言信息集成到结构化贝叶斯对手建模框架中,用于多智能体协商。该方法利用LLM从话语中提取定性线索,并将其转换为概率格式,在多方协商基准上展示了改进的协议达成率和偏好估计准确性。

IPQA:个性化问答中核心意图识别基准

arXiv cs.CL

IPQA引入了一个用于评估个性化问答中核心意图识别的基准,解决了现有指标仅关注响应质量而非意图理解的空白。论文提出了一种基于有界理性的数据集构建方法,并证明最先进的语言模型在从答案选择模式中识别用户优先意图时存在困难。

大语言模型搜索代理的推理时预算控制

arXiv cs.AI

本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。