SAVOIR：基于Shapley值奖励归因的社交技巧学习框架

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

SAVOIR框架将合作博弈论与Shapley值应用于语言智能体训练，显著提升其社交智能，在SOTOPIA基准上刷新SOTA，并达到GPT-4o水平。

社交智能——在复杂人际互动中游刃有余的能力——一直是语言智能体的核心挑战。通过强化学习训练此类智能体，必须解决信用分配问题：如何衡量单轮发言对多轮对话结果的贡献。现有方法直接让语言模型在回合层面分配奖励，所得归因既事后又缺乏理论依据。我们提出SAVOIR（ShApley Value fOr SocIal RL），一个基于合作博弈论的全新原则性框架。该方法融合两条互补原则：期望效用将评估从“事后归因”转为“事前估值”，捕捉发言为未来有利轨迹带来的战略潜力；Shapley值则以公理化的效率、对称性与边际性保证，实现公平信用分配。在SOTOPIA基准上的实验表明，SAVOIR在所有评估设置中刷新SOTA，我们的7B模型媲美甚至超越GPT-4o、Claude-3.5-Sonnet等专有模型。值得注意的是，大型推理模型仍持续落后，提示社交智能需要与分析推理截然不同的能力。

查看原文

查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - SAVOIR：基于 Shapley 奖励归因的社交“Savoir-Faire”学习

来源：https://huggingface.co/papers/2604.18982
作者：

摘要

SAVOIR 框架利用合作博弈论，通过结合期望效用变化与 Shapley 值，为对话系统提供更合理的信用分配，从而提升语言智能体的社交智能。

社交智能——在复杂人际互动中游刃有余的能力——对语言智能体而言仍是根本挑战。通过强化学习训练这类智能体，必须解决信用分配问题：确定单句发言如何影响多轮对话结果。现有方法直接用语言模型分配整轮奖励，归因方式既事后又缺乏理论支撑。我们提出 SAVOIR（ShApley Value fOr SocIal RL），一种基于合作博弈论的崭新原则性框架。该方法融合两条互补原则：期望效用变化将评估从事后归因转为前瞻估值，捕捉发言促成有利未来轨迹的战略潜力；Shapley 值则以公理保证的效率、对称性与边际性，实现公平信用分配。在 SOTOPIA 基准上的实验表明，SAVOIR 在所有评测设置中刷新 SOTA，我们的 7B 模型可匹敌甚至超越 GPT-4o、Claude-3.5-Sonnet 等专有模型。值得注意的是，大型推理模型亦持续落后，提示社交智能所需能力与分析推理有质的不同。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18982)
查看 PDF (https://arxiv.org/pdf/2604.18982)
GitHub (https://github.com/jyyyyy0/SAVOIR)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18982)

在智能体中获取该论文：

hf papers read 2604.18982

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。

引用该论文的数据集 0

暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。

收录该论文的合集 0

暂无合集收录此论文
创建合集并添加该论文即可在此显示。

SAVOIR：基于Shapley值奖励归因的社交技巧学习框架

论文页面 - SAVOIR：基于 Shapley 奖励归因的社交“Savoir-Faire”学习

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

ALSO：面向社交智能体的对抗性在线策略优化

从描述性到规范性：揭示基于LLM的智能体的社会价值对齐

SPARK：基于知识图谱的不对称奖励自博弈

爱的迷雾：在游戏环境中利用基于亲和力的强化学习构建具有美德行为的智能体

发现合作管道：面向序列社会困境的自动研究

提交意见反馈