visual-social-intelligence

#visual-social-intelligence

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

arXiv cs.CL ↗ · 4d ago Cached

This paper introduces AgentViSS, a benchmark evaluating visual social intelligence in multimodal social simulation, containing 240 scenarios with aligned visual-textual evidence. Evaluating seven recent MLLMs reveals a gap between local role enactment and visually grounded interaction management.

0 favorites 0 likes

visual-social-intelligence

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

Submit Feedback