标签
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。
GRASP是一个大规模数据集,用于多人物视频中的社交推理,将高层次社交问题与细粒度的注视和手势事件联系起来,并引入了社交基础奖励(Social Grounding Reward)以提升多模态模型的理解能力。
RoleConflictBench 是一个新颖的基准,包含 13,000+ 个场景和 65 个角色,旨在评估大语言模型在多个社会期望相互冲突的角色冲突情境中的情境敏感性。对 10 个大语言模型的分析表明,这些模型主要依赖于学习到的角色偏好,而非动态的情境线索来做决策。