GRASP：在多人物非语言交互中建立社交推理的根基

Hugging Face Daily Papers 2026/05/15 00:00 论文

social-reasoning non-verbal-interactions gaze gestures multimodal dataset benchmark

摘要

GRASP是一个大规模数据集，用于多人物视频中的社交推理，将高层次社交问题与细粒度的注视和手势事件联系起来，并引入了社交基础奖励（Social Grounding Reward）以提升多模态模型的理解能力。

理解社交互动需要对细微的非语言线索进行推理，然而当前的多模态大语言模型（MLLMs）往往无法识别多人物视频中谁在与谁互动。我们引入了GRASP，一个大规模社交推理数据集，它将高层次社交问答与细粒度的注视和指示性手势事件联系起来。GRASP包含46K个视频（总计749小时）上的29万对问答，按照涵盖注视、手势以及注视与手势联合推理的16类分类法组织，并附带GRASP-Bench用于评估。与以往仅关注孤立线索或高层次社交问答的资源不同，GRASP从身份一致的注视轨迹、指示性手势及其联合构成的社会事件中构建问题。此外，我们提出了社交基础奖励（SGR），一种利用这些社会事件来鼓励模型推理每次互动中参与者的学习信号。实验表明，SGR在GRASP-Bench上提升了性能，同时在相关社交视频问答基准上保持了零样本性能。

查看原文

查看缓存全文

缓存时间: 2026/05/19 10:31

论文页面 - GRASP：在多人物非语言互动中建立社会推理的基础

来源：https://huggingface.co/papers/2605.15764

摘要

GRASP 是一个大规模的社会推理数据集，将高层次社会问题与细粒度的注视和手势事件连接起来，并引入社会基础奖励（Social Grounding Reward）以提升多模态模型对社会互动的理解。

理解社会互动需要对微妙的非语言线索进行推理，然而当前的多模态大语言模型（https://huggingface.co/papers?q=multimodal%20large%20language%20models，MLLMs）在多人视频中经常无法识别谁与谁在互动。我们提出了 GRASP，这是一个大规模的社会推理（https://huggingface.co/papers?q=social%20reasoning）数据集，将高层次社会问答与细粒度的注视和指示手势事件连接起来。GRASP 包含 46K 个视频（总计 749 小时）上的 290K 问答对，按照 16 类分类体系组织，涵盖注视、手势以及注视-手势联合推理，并配套 GRASP-Bench（https://huggingface.co/papers?q=GRASP-Bench）用于评估。与以往专注于单一线索或高层次社会问答的资源不同，GRASP 基于身份一致的注视轨迹（https://huggingface.co/papers?q=gaze%20trajectories）、指示手势（https://huggingface.co/papers?q=deictic%20gestures）及其组合形成的社会事件（https://huggingface.co/papers?q=social%20events）来构建问题。此外，我们提出了社会基础奖励（Social Grounding Reward，SGR，https://huggingface.co/papers?q=Social%20Grounding%20Reward），这是一种学习信号，利用这些社会事件（https://huggingface.co/papers?q=social%20events）鼓励模型推理每次互动所涉及的参与者。实验表明，SGR 在 GRASP-Bench（https://huggingface.co/papers?q=GRASP-Bench）上提升了性能，同时在相关的社会视频问答基准上保持了零样本性能。

查看arXiv页面（https://arxiv.org/abs/2605.15764）查看PDF（https://arxiv.org/pdf/2605.15764）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.15764）

引用本论文的模型 0

没有模型链接本论文

在模型的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。

引用本论文的数据集 0

没有数据集链接本论文

在数据集的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。

引用本论文的 Space 0

没有 Space 链接本论文

在 Space 的README.md中引用 arxiv.org/abs/2605.15764 即可从此页链接。

包含本论文的收藏集 0

没有包含本论文的收藏集

将本论文添加到收藏集（https://huggingface.co/new-collection）即可从此页链接。

GRASP：在多人物非语言交互中建立社交推理的根基

论文页面 - GRASP：在多人物非语言互动中建立社会推理的基础

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Space 0

包含本论文的收藏集 0

相似文章

检索、整合与综合：空间-语义接地潜层视觉推理

超大视频推理套件

GraphReAct：面向多步图推理的推理与行动

iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型

看得越多就知道得越多？面向多源视觉推理的单锚优势归一化

提交意见反馈