social-reasoning

#social-reasoning

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

arXiv cs.AI ↗ · 2026-05-27 Cached

OmniToM introduces a benchmark that evaluates large language models' theory of mind by requiring explicit belief structure extraction and labeling, revealing a bottleneck in tracking actor-specific beliefs despite strong performance on endpoint QA tasks.

0 favorites 0 likes

#social-reasoning

GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

Hugging Face Daily Papers ↗ · 2026-05-15 Cached

GRASP is a large-scale dataset for social reasoning in multi-person videos, connecting high-level social questions with fine-grained gaze and gesture events, and introduces Social Grounding Reward to improve multimodal model understanding.

0 favorites 0 likes

#social-reasoning

RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity

arXiv cs.CL ↗ · 2026-04-20 Cached

RoleConflictBench is a novel benchmark containing over 13,000 scenarios across 65 roles designed to evaluate how well LLMs handle contextual sensitivity in role conflict situations where multiple social expectations clash. Analysis of 10 LLMs reveals that models predominantly rely on learned role preferences rather than dynamic contextual cues when making decisions.

0 favorites 0 likes

social-reasoning

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity

Submit Feedback