SAVOIR:基于Shapley值奖励归因的社交技巧学习框架

Hugging Face Daily Papers 论文

摘要

SAVOIR框架将合作博弈论与Shapley值应用于语言智能体训练,显著提升其社交智能,在SOTOPIA基准上刷新SOTA,并达到GPT-4o水平。

社交智能——在复杂人际互动中游刃有余的能力——一直是语言智能体的核心挑战。通过强化学习训练此类智能体,必须解决信用分配问题:如何衡量单轮发言对多轮对话结果的贡献。现有方法直接让语言模型在回合层面分配奖励,所得归因既事后又缺乏理论依据。我们提出SAVOIR(ShApley Value fOr SocIal RL),一个基于合作博弈论的全新原则性框架。该方法融合两条互补原则:期望效用将评估从“事后归因”转为“事前估值”,捕捉发言为未来有利轨迹带来的战略潜力;Shapley值则以公理化的效率、对称性与边际性保证,实现公平信用分配。在SOTOPIA基准上的实验表明,SAVOIR在所有评估设置中刷新SOTA,我们的7B模型媲美甚至超越GPT-4o、Claude-3.5-Sonnet等专有模型。值得注意的是,大型推理模型仍持续落后,提示社交智能需要与分析推理截然不同的能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - SAVOIR:基于 Shapley 奖励归因的社交“Savoir-Faire”学习

来源:https://huggingface.co/papers/2604.18982
作者:

,

,

,

,

,

,

,

,

,

,

摘要

SAVOIR 框架利用合作博弈论,通过结合期望效用变化与 Shapley 值,为对话系统提供更合理的信用分配,从而提升语言智能体的社交智能。

社交智能——在复杂人际互动中游刃有余的能力——对语言智能体而言仍是根本挑战。通过强化学习训练这类智能体,必须解决信用分配问题:确定单句发言如何影响多轮对话结果。现有方法直接用语言模型分配整轮奖励,归因方式既事后又缺乏理论支撑。我们提出 SAVOIR(ShApley Value fOr SocIal RL),一种基于合作博弈论的崭新原则性框架。该方法融合两条互补原则:期望效用变化将评估从事后归因转为前瞻估值,捕捉发言促成有利未来轨迹的战略潜力;Shapley 值则以公理保证的效率、对称性与边际性,实现公平信用分配。在 SOTOPIA 基准上的实验表明,SAVOIR 在所有评测设置中刷新 SOTA,我们的 7B 模型可匹敌甚至超越 GPT-4o、Claude-3.5-Sonnet 等专有模型。值得注意的是,大型推理模型亦持续落后,提示社交智能所需能力与分析推理有质的不同。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18982)
查看 PDF (https://arxiv.org/pdf/2604.18982)
GitHub (https://github.com/jyyyyy0/SAVOIR)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18982)

在智能体中获取该论文:

hf papers read 2604.18982

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。

引用该论文的数据集 0

暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。

收录该论文的合集 0

暂无合集收录此论文
创建合集 并添加该论文即可在此显示。

相似文章