跨会话个性化工具调用的潜在偏好建模

Hugging Face Daily Papers 论文

摘要

引入 MPT 基准和 PRefine 方法,用于跨会话个性化工具调用,以极低 token 开销捕捉用户选择背后的推理。

用户在与基于 LLM 的智能体交互时,常常遗漏关键信息,导致工具调用的输入不够明确。这对工具增强型智能体构成根本挑战,因为 API 执行通常需要完整参数,从而凸显了个性化工具调用的必要性。为研究该问题,我们推出 MPT 基准,包含 265 段多会话对话,涵盖三大挑战:偏好回忆、偏好归纳与偏好迁移。我们还提出 PRefine,一种测试时记忆增强方法,将用户偏好表示为动态演化的假设。通过“生成—验证—精炼”循环,从历史中提取可复用约束,在仅使用完整历史提示 1.24% token 的情况下提升工具调用准确率。实验表明,智能体系统的稳健个性化依赖于能够捕捉用户选择背后“原因”的记忆,而不仅仅是选择本身。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 11:27

论文页面 - 跨会话个性化工具调用的潜在偏好建模

来源:https://huggingface.co/papers/2604.17886

摘要

通过记忆增强方法,LLM 智能体的个性化工具调用得以改进:该方法不仅记录用户的选择,更捕捉选择背后的理由,且额外 token 开销极低。

用户向 LLM 智能体发起请求时,常遗漏关键细节,导致工具输入欠规范。这对工具增强型智能体(https://huggingface.co/papers?q=tool-augmented%20agents)构成根本挑战,因为 API 执行(https://huggingface.co/papers?q=API%20execution)通常需要完整参数,从而凸显个性化工具调用(https://huggingface.co/papers?q=personalized%20tool%20calling)的必要性。为研究该问题,我们推出 MPT 基准,包含 265 段多会话对话(https://huggingface.co/papers?q=multi-session%20dialogues),涵盖三大挑战:偏好回忆(https://huggingface.co/papers?q=Preference%20Recall)、偏好归纳(https://huggingface.co/papers?q=Preference%20Induction)与偏好迁移(https://huggingface.co/papers?q=Preference%20Transfer)。我们还提出 PRefine(https://huggingface.co/papers?q=PRefine),一种测试时的记忆增强方法,将用户偏好(https://huggingface.co/papers?q=user%20preferences)表示为动态演化的假设。通过“生成—验证—精炼”循环(https://huggingface.co/papers?q=generate–verify–refine%20loop),从历史中提取可复用的约束,在仅消耗全历史提示 1.24% token 的情况下提升工具调用准确率。结果表明,智能体系统的稳健个性化依赖于能够记录“用户为何如此选择”的记忆,而不仅仅是“用户选择了什么”。

查看 arXiv 页面(https://arxiv.org/abs/2604.17886)
查看 PDF(https://arxiv.org/pdf/2604.17886)
项目主页(https://still-with-you.github.io/pages/prefine/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.17886)

在您的智能体中获取本文:

hf papers read 2604.17886

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

创建新合集 并将该论文加入,即可在此页面显示链接。

相似文章

测试时个性化:针对缩放失败的一种诊断框架与概率修正方法

arXiv cs.LG

本文提出了测试时个性化(TTP),这是一种通过候选采样和基于奖励的选择来扩展推理时计算,从而提升大语言模型(LLM)个性化能力的框架。该研究诊断了标准奖励模型中的失效模式,并提出了一种概率个性化奖励模型以缓解这些问题。

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

FSPO:少样本合成偏好优化实现面向真实用户的个性化

arXiv cs.CL

FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。