gaze

#gaze

GRASP：在多人物非语言交互中建立社交推理的根基

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

GRASP是一个大规模数据集，用于多人物视频中的社交推理，将高层次社交问题与细粒度的注视和手势事件联系起来，并引入了社交基础奖励（Social Grounding Reward）以提升多模态模型的理解能力。

0 人收藏 0 人点赞