GRASP:在多人物非语言交互中建立社交推理的根基

Hugging Face Daily Papers 论文

摘要

GRASP是一个大规模数据集,用于多人物视频中的社交推理,将高层次社交问题与细粒度的注视和手势事件联系起来,并引入了社交基础奖励(Social Grounding Reward)以提升多模态模型的理解能力。

理解社交互动需要对细微的非语言线索进行推理,然而当前的多模态大语言模型(MLLMs)往往无法识别多人物视频中谁在与谁互动。我们引入了GRASP,一个大规模社交推理数据集,它将高层次社交问答与细粒度的注视和指示性手势事件联系起来。GRASP包含46K个视频(总计749小时)上的29万对问答,按照涵盖注视、手势以及注视与手势联合推理的16类分类法组织,并附带GRASP-Bench用于评估。与以往仅关注孤立线索或高层次社交问答的资源不同,GRASP从身份一致的注视轨迹、指示性手势及其联合构成的社会事件中构建问题。此外,我们提出了社交基础奖励(SGR),一种利用这些社会事件来鼓励模型推理每次互动中参与者的学习信号。实验表明,SGR在GRASP-Bench上提升了性能,同时在相关社交视频问答基准上保持了零样本性能。
查看原文
查看缓存全文

缓存时间: 2026/05/19 10:31

论文页面 - GRASP:在多人物非语言互动中建立社会推理的基础

来源:https://huggingface.co/papers/2605.15764

摘要

GRASP 是一个大规模的社会推理数据集,将高层次社会问题与细粒度的注视和手势事件连接起来,并引入社会基础奖励(Social Grounding Reward)以提升多模态模型对社会互动的理解。

理解社会互动需要对微妙的非语言线索进行推理,然而当前的多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models,MLLMs)在多人视频中经常无法识别谁与谁在互动。我们提出了 GRASP,这是一个大规模的社会推理(https://huggingface.co/papers?q=social%20reasoning)数据集,将高层次社会问答与细粒度的注视和指示手势事件连接起来。GRASP 包含 46K 个视频(总计 749 小时)上的 290K 问答对,按照 16 类分类体系组织,涵盖注视、手势以及注视-手势联合推理,并配套 GRASP-Bench(https://huggingface.co/papers?q=GRASP-Bench)用于评估。与以往专注于单一线索或高层次社会问答的资源不同,GRASP 基于身份一致的注视轨迹(https://huggingface.co/papers?q=gaze%20trajectories)、指示手势(https://huggingface.co/papers?q=deictic%20gestures)及其组合形成的社会事件(https://huggingface.co/papers?q=social%20events)来构建问题。此外,我们提出了社会基础奖励(Social Grounding Reward,SGR,https://huggingface.co/papers?q=Social%20Grounding%20Reward),这是一种学习信号,利用这些社会事件(https://huggingface.co/papers?q=social%20events)鼓励模型推理每次互动所涉及的参与者。实验表明,SGR 在 GRASP-Bench(https://huggingface.co/papers?q=GRASP-Bench)上提升了性能,同时在相关的社会视频问答基准上保持了零样本性能。

查看arXiv页面(https://arxiv.org/abs/2605.15764)查看PDF(https://arxiv.org/pdf/2605.15764)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15764)

引用本论文的模型 0

没有模型链接本论文

在模型的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。

引用本论文的数据集 0

没有数据集链接本论文

在数据集的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。

引用本论文的 Space 0

没有 Space 链接本论文

在 Space 的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。

包含本论文的收藏集 0

没有包含本论文的收藏集

将本论文添加到收藏集(https://huggingface.co/new-collection)即可从此页链接。

相似文章

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

超大视频推理套件

Papers with Code Trending

本文介绍了超大视频推理(VBVR)数据集和基准,这是一个大规模资源,包含超过一百万个视频片段,涵盖200个推理任务,能够系统研究时空推理,并展示了早期出现的涌现泛化迹象。

GraphReAct:面向多步图推理的推理与行动

arXiv cs.AI

本文介绍了 GraphReAct,这是一个将推理与行动范式扩展到图结构数据以进行多步推理的框架。它结合了拓扑检索、语义检索以及上下文精炼,以提升在图学习基准测试上的性能。