GRASP:在多人物非语言交互中建立社交推理的根基
摘要
GRASP是一个大规模数据集,用于多人物视频中的社交推理,将高层次社交问题与细粒度的注视和手势事件联系起来,并引入了社交基础奖励(Social Grounding Reward)以提升多模态模型的理解能力。
查看缓存全文
缓存时间: 2026/05/19 10:31
论文页面 - GRASP:在多人物非语言互动中建立社会推理的基础
来源:https://huggingface.co/papers/2605.15764
摘要
GRASP 是一个大规模的社会推理数据集,将高层次社会问题与细粒度的注视和手势事件连接起来,并引入社会基础奖励(Social Grounding Reward)以提升多模态模型对社会互动的理解。
理解社会互动需要对微妙的非语言线索进行推理,然而当前的多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models,MLLMs)在多人视频中经常无法识别谁与谁在互动。我们提出了 GRASP,这是一个大规模的社会推理(https://huggingface.co/papers?q=social%20reasoning)数据集,将高层次社会问答与细粒度的注视和指示手势事件连接起来。GRASP 包含 46K 个视频(总计 749 小时)上的 290K 问答对,按照 16 类分类体系组织,涵盖注视、手势以及注视-手势联合推理,并配套 GRASP-Bench(https://huggingface.co/papers?q=GRASP-Bench)用于评估。与以往专注于单一线索或高层次社会问答的资源不同,GRASP 基于身份一致的注视轨迹(https://huggingface.co/papers?q=gaze%20trajectories)、指示手势(https://huggingface.co/papers?q=deictic%20gestures)及其组合形成的社会事件(https://huggingface.co/papers?q=social%20events)来构建问题。此外,我们提出了社会基础奖励(Social Grounding Reward,SGR,https://huggingface.co/papers?q=Social%20Grounding%20Reward),这是一种学习信号,利用这些社会事件(https://huggingface.co/papers?q=social%20events)鼓励模型推理每次互动所涉及的参与者。实验表明,SGR 在 GRASP-Bench(https://huggingface.co/papers?q=GRASP-Bench)上提升了性能,同时在相关的社会视频问答基准上保持了零样本性能。
查看arXiv页面(https://arxiv.org/abs/2605.15764)查看PDF(https://arxiv.org/pdf/2605.15764)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15764)
引用本论文的模型 0
没有模型链接本论文
在模型的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。
引用本论文的数据集 0
没有数据集链接本论文
在数据集的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。
引用本论文的 Space 0
没有 Space 链接本论文
在 Space 的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。
包含本论文的收藏集 0
没有包含本论文的收藏集
将本论文添加到收藏集(https://huggingface.co/new-collection)即可从此页链接。
相似文章
检索、整合与综合:空间-语义接地潜层视觉推理
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
超大视频推理套件
本文介绍了超大视频推理(VBVR)数据集和基准,这是一个大规模资源,包含超过一百万个视频片段,涵盖200个推理任务,能够系统研究时空推理,并展示了早期出现的涌现泛化迹象。
GraphReAct:面向多步图推理的推理与行动
本文介绍了 GraphReAct,这是一个将推理与行动范式扩展到图结构数据以进行多步推理的框架。它结合了拓扑检索、语义检索以及上下文精炼,以提升在图学习基准测试上的性能。
iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型
介绍 iVGR,一种强化学习框架,将视觉定位内化到多模态语言模型的文本推理中,在提升细粒度感知性能的同时,消除了推理过程中显式视觉基础的需求。
看得越多就知道得越多?面向多源视觉推理的单锚优势归一化
本文提出MARS,一种单锚多源推理框架,利用动态锚定量化信息增益,并在基于可验证奖励的强化学习过程中调节模态交互,在GRPO和DAPO上分别实现了3.2%和4.9%的性能提升,涵盖多个数据集。