persuasive-dialogue

标签

Cards List
#persuasive-dialogue

Ψ-Bench:评估说服性对话中的人设敏感影响

Hugging Face Daily Papers · 2026-06-01 缓存

介绍Ψ-Bench,一个用于评估大语言模型通过带有个人档案的说服性对话影响用户能力的基准。测试了10个前沿LLM,发现仍有显著改进空间,而访问档案平均提升18.24%的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈