标签
一项新研究揭示,意大利和荷兰成年人在教导儿童时会本能地以类似方式调整手势,这表明跨文化存在一种共享的沟通策略。
GRASP是一个大规模数据集,用于多人物视频中的社交推理,将高层次社交问题与细粒度的注视和手势事件联系起来,并引入了社交基础奖励(Social Grounding Reward)以提升多模态模型的理解能力。