SAVOIR:基于Shapley值奖励归因的社交技巧学习框架
摘要
SAVOIR框架将合作博弈论与Shapley值应用于语言智能体训练,显著提升其社交智能,在SOTOPIA基准上刷新SOTA,并达到GPT-4o水平。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - SAVOIR:基于 Shapley 奖励归因的社交“Savoir-Faire”学习
来源:https://huggingface.co/papers/2604.18982
作者:
,
,
,
,
,
,
,
,
,
,
摘要
SAVOIR 框架利用合作博弈论,通过结合期望效用变化与 Shapley 值,为对话系统提供更合理的信用分配,从而提升语言智能体的社交智能。
社交智能——在复杂人际互动中游刃有余的能力——对语言智能体而言仍是根本挑战。通过强化学习训练这类智能体,必须解决信用分配问题:确定单句发言如何影响多轮对话结果。现有方法直接用语言模型分配整轮奖励,归因方式既事后又缺乏理论支撑。我们提出 SAVOIR(ShApley Value fOr SocIal RL),一种基于合作博弈论的崭新原则性框架。该方法融合两条互补原则:期望效用变化将评估从事后归因转为前瞻估值,捕捉发言促成有利未来轨迹的战略潜力;Shapley 值则以公理保证的效率、对称性与边际性,实现公平信用分配。在 SOTOPIA 基准上的实验表明,SAVOIR 在所有评测设置中刷新 SOTA,我们的 7B 模型可匹敌甚至超越 GPT-4o、Claude-3.5-Sonnet 等专有模型。值得注意的是,大型推理模型亦持续落后,提示社交智能所需能力与分析推理有质的不同。
查看 arXiv 页面 (https://arxiv.org/abs/2604.18982)
查看 PDF (https://arxiv.org/pdf/2604.18982)
GitHub (https://github.com/jyyyyy0/SAVOIR)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18982)
在智能体中获取该论文:
hf papers read 2604.18982
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.18982 即可在此显示。
收录该论文的合集 0
暂无合集收录此论文
创建合集 并添加该论文即可在此显示。
相似文章
SPARK:基于知识图谱的不对称奖励自博弈
本文介绍了 SPARK,这是一种自博弈强化学习框架,利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。
@dair_ai:距离能自我生成世界知识的智能体还有多远?该研究提出一种基于结果的奖励,用于量化……
一篇新论文提出了一种基于结果的奖励机制,可量化智能体自生成的世界知识对任务成功率的提升,使其在推理阶段无需外部指导即可持续改进。
SkillOS:面向自进化智能体的技能策展学习
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。
打破僵局:用于社交语言智能体的双尺度进化策略训练
本文提出了双尺度进化策略训练(DEPT),旨在解决社交语言智能体的进化僵局问题,利用非对称优势重塑技术在自博弈过程中恢复梯度信号。
AgentPSO:通过多智能体粒子群优化进化智能体推理技能
AgentPSO 是一种受粒子群算法启发的框架,通过将智能体视为以自然语言技能为状态的粒子,来进化多智能体推理能力。它在无需更新基础语言模型参数的情况下,提升了在推理基准测试上的性能。