SAVOIR:基于Shapley值奖励归因的社交技巧学习框架
摘要
SAVOIR框架将合作博弈论与Shapley值应用于语言智能体训练,显著提升其社交智能,在SOTOPIA基准上刷新SOTA,并达到GPT-4o水平。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - SAVOIR:基于 Shapley 奖励归因的社交“Savoir-Faire”学习
来源:https://huggingface.co/papers/2604.18982
作者:
,
,
,
,
,
,
,
,
,
,
摘要
SAVOIR 框架利用合作博弈论,通过结合期望效用变化与 Shapley 值,为对话系统提供更合理的信用分配,从而提升语言智能体的社交智能。
社交智能——在复杂人际互动中游刃有余的能力——对语言智能体而言仍是根本挑战。通过强化学习训练这类智能体,必须解决信用分配问题:确定单句发言如何影响多轮对话结果。现有方法直接用语言模型分配整轮奖励,归因方式既事后又缺乏理论支撑。我们提出 SAVOIR(ShApley Value fOr SocIal RL),一种基于合作博弈论的崭新原则性框架。该方法融合两条互补原则:期望效用变化将评估从事后归因转为前瞻估值,捕捉发言促成有利未来轨迹的战略潜力;Shapley 值则以公理保证的效率、对称性与边际性,实现公平信用分配。在 SOTOPIA 基准上的实验表明,SAVOIR 在所有评测设置中刷新 SOTA,我们的 7B 模型可匹敌甚至超越 GPT-4o、Claude-3.5-Sonnet 等专有模型。值得注意的是,大型推理模型亦持续落后,提示社交智能所需能力与分析推理有质的不同。
查看 arXiv 页面 (https://arxiv.org/abs/2604.18982)
查看 PDF (https://arxiv.org/pdf/2604.18982)
GitHub (https://github.com/jyyyyy0/SAVOIR)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18982)
在智能体中获取该论文:
hf papers read 2604.18982
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。
收录该论文的合集 0
暂无合集收录此论文
创建合集 并添加该论文即可在此显示。
相似文章
ALSO:面向社交智能体的对抗性在线策略优化
ALSO引入了一个多智能体社交模拟中的在线策略优化框架,将多轮交互建模为对抗性赌博机问题,并利用神经代理进行奖励预测。在Sotopia基准上的实验表明,它优于静态基线和现有优化方法。
从描述性到规范性:揭示基于LLM的智能体的社会价值对齐
本文提出了SoVA,一个使用GraphRAG将心理学理论转化为规范性指令,从而使基于LLM的智能体与人类社会价值观对齐的框架。在DAILYDILEMMAS基准上的实验表明,相比基于提示的基线方法有显著改进。
SPARK:基于知识图谱的不对称奖励自博弈
本文介绍了 SPARK,这是一种自博弈强化学习框架,利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。
爱的迷雾:在游戏环境中利用基于亲和力的强化学习构建具有美德行为的智能体
本文介绍了一个基于桌游《爱的迷雾》的多智能体环境,用于评估基于亲和力的强化学习在赋予 AI 智能体美德行为方面的效果。作者证明,局部亲和力能够提升智能体在竞争性与合作性目标上的表现,推动机器伦理研究突破简单网格世界环境的局限。
发现合作管道:面向序列社会困境的自动研究
本文提出了一种双层自动研究框架,其中外环AI代理自主优化内环LLM策略合成管道,用于多智能体序列社会困境,实现了优越的性能,并发现了在最大最小福利目标下的公平等具体目标机制。