Ψ-Bench:评估说服性对话中的人设敏感影响
摘要
介绍Ψ-Bench,一个用于评估大语言模型通过带有个人档案的说服性对话影响用户能力的基准。测试了10个前沿LLM,发现仍有显著改进空间,而访问档案平均提升18.24%的性能。
查看缓存全文
缓存时间: 2026/06/03 03:35
论文页面 - Ψ-Bench:评估说服性对话中的用户画像敏感影响
来源:https://huggingface.co/papers/2606.02754
摘要
尽管大语言模型(LLMs)能生成连贯的论点,但在说服性对话中表现出有限的有效性,而用户特定画像能显著提升其表现。
个性化是现代语言智能体(https://huggingface.co/papers?q=language%20agents)的关键能力。然而,当前研究主要将个性化智能体(https://huggingface.co/papers?q=personalized%20agents)定位为被动的用户偏好响应者,这限制了它们与用户互动并主动提供建议或引导的能力。为了在真实交互中系统评估这种主动个性化能力,我们提出了 Ψ-Bench,一个评估大语言模型(https://huggingface.co/papers?q=LLMs)通过对话影响真实用户能力的基准测试。我们在 Ψ-Bench 中设计了三个涉及说服(https://huggingface.co/papers?q=persuasion)的真实世界交互场景,并通过从对话历史(https://huggingface.co/papers?q=dialogue%20histories)中提取的显式用户画像(https://huggingface.co/papers?q=user%20profiles)赋予模拟客户个性特征。我们在 Ψ-Bench 上评估了 10 个前沿大语言模型(https://huggingface.co/papers?q=LLMs),发现尽管大多数模型能生成连贯且合理的论点,但即便最先进的模型在说服(https://huggingface.co/papers?q=persuasion)方面仍有相当大的改进空间。我们还发现,提供客户画像访问权限平均带来 18.24% 的性能提升,凸显了用户特定信息对有效说服(https://huggingface.co/papers?q=persuasion)的重要性。总体而言,我们的工作将用户画像敏感影响(https://huggingface.co/papers?q=persona-sensitive%20influencing)定位为一个具有挑战性但实用的方向,用于评估和开发更主动的个性化大语言模型智能体。代码可在以下地址获取:https://github.com/Hanpx20/Psi-Bench。
查看 arXiv 页面(https://arxiv.org/abs/2606.02754)查看 PDF(https://arxiv.org/pdf/2606.02754)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02754)
在你的智能体中获取该论文:
hf papers read 2606.02754
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
无模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2606.02754 即可从本页面链接。
引用本论文的数据集0
无数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.02754 即可从本页面链接。
引用本论文的 Spaces0
无 Space 链接本论文
在 Space README.md 中引用 arxiv.org/abs/2606.02754 即可从本页面链接。
包含本论文的集合0
无集合包含本论文
将本论文添加至集合(https://huggingface.co/new-collection)即可从本页面链接。
相似文章
Ψ-Bench:评估对话中基于人格的影响力 persuasion
Ψ-Bench是一个基准测试,用于评估大语言模型通过对话影响用户的能力,并整合用户画像以进行个性化说服。实验表明,即使是最先进的模型仍有改进空间,而获取客户画像能显著提升性能。
PrefBench:评估零样本LLM智能体在隐藏偏好个性化定价谈判中的表现
PrefBench是一个新基准,旨在评估零样本LLM智能体在具有隐藏偏好的个性化定价谈判中的表现,考察它们在谈判场景中推断和适应用户偏好的能力。
MCP-Persona:通过环境模拟对LLM智能体在实际个人应用中的基准测试
MCP-Persona是一种基准测试,用于评估LLM智能体在与个人账户和本地数据库交互的个性化工具上的表现。实验表明,最先进的智能体在个性化工具使用方面面临显著挑战。
POLAR-Bench:用于LLM智能体中隐私-效用权衡的诊断基准
POLAR-Bench是一个诊断基准,通过测试LLM智能体在受到第三方模型对抗性探测时遵循隐私策略的能力,来评估隐私-效用的权衡。结果显示,前沿模型保护了超过99%的受保护属性,但较小的开源权重模型泄露了一半以上,突显了意图遵循方面的差距。
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。