spatial-vlms

#spatial-vlms

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Hugging Face Daily Papers ↗ · 3d ago Cached

This paper introduces SR-REAL, a unified framework for spatial vision-language models that combines linguistic deduction and 3D geometric reasoning via reinforcement learning, enabling robust multi-step spatial reasoning across diverse tasks.

0 favorites 0 likes

spatial-vlms

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Submit Feedback