跨会话个性化工具调用的潜在偏好建模
摘要
引入 MPT 基准和 PRefine 方法,用于跨会话个性化工具调用,以极低 token 开销捕捉用户选择背后的推理。
查看缓存全文
缓存时间: 2026/04/21 11:27
论文页面 - 跨会话个性化工具调用的潜在偏好建模
来源:https://huggingface.co/papers/2604.17886
摘要
通过记忆增强方法,LLM 智能体的个性化工具调用得以改进:该方法不仅记录用户的选择,更捕捉选择背后的理由,且额外 token 开销极低。
用户向 LLM 智能体发起请求时,常遗漏关键细节,导致工具输入欠规范。这对工具增强型智能体(https://huggingface.co/papers?q=tool-augmented%20agents)构成根本挑战,因为 API 执行(https://huggingface.co/papers?q=API%20execution)通常需要完整参数,从而凸显个性化工具调用(https://huggingface.co/papers?q=personalized%20tool%20calling)的必要性。为研究该问题,我们推出 MPT 基准,包含 265 段多会话对话(https://huggingface.co/papers?q=multi-session%20dialogues),涵盖三大挑战:偏好回忆(https://huggingface.co/papers?q=Preference%20Recall)、偏好归纳(https://huggingface.co/papers?q=Preference%20Induction)与偏好迁移(https://huggingface.co/papers?q=Preference%20Transfer)。我们还提出 PRefine(https://huggingface.co/papers?q=PRefine),一种测试时的记忆增强方法,将用户偏好(https://huggingface.co/papers?q=user%20preferences)表示为动态演化的假设。通过“生成—验证—精炼”循环(https://huggingface.co/papers?q=generate–verify–refine%20loop),从历史中提取可复用的约束,在仅消耗全历史提示 1.24% token 的情况下提升工具调用准确率。结果表明,智能体系统的稳健个性化依赖于能够记录“用户为何如此选择”的记忆,而不仅仅是“用户选择了什么”。
查看 arXiv 页面(https://arxiv.org/abs/2604.17886)
查看 PDF(https://arxiv.org/pdf/2604.17886)
项目主页(https://still-with-you.github.io/pages/prefine/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.17886)
在您的智能体中获取本文:
hf papers read 2604.17886
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.17886 即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录该论文
创建新合集 并将该论文加入,即可在此页面显示链接。
相似文章
学习可转移的潜在用户偏好以实现与人类一致的决策
本文介绍CLIPR,一个从最少的对话输入中学习可转移的潜在用户偏好的框架,以改进LLM中与人类一致的决策。
CLIPer:通过分类器引导的推理时个性化定制多样化用户偏好
本文介绍了 CLIPer,这是一种在推理时利用分类器个性化大语言模型(LLM)输出的方法,避免了大规模微调带来的计算成本。
测试时个性化:针对缩放失败的一种诊断框架与概率修正方法
本文提出了测试时个性化(TTP),这是一种通过候选采样和基于奖励的选择来扩展推理时计算,从而提升大语言模型(LLM)个性化能力的框架。该研究诊断了标准奖励模型中的失效模式,并提出了一种概率个性化奖励模型以缓解这些问题。
LLM代理已经知道何时调用工具——甚至无需推理
本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。
FSPO:少样本合成偏好优化实现面向真实用户的个性化
FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。