active-visual-reasoning

#active-visual-reasoning

Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

arXiv cs.AI ↗ · 2026-06-16 Cached

Visual-Seeker proposes a visual-native multimodal deep search agent that actively reasons over fine-grained visual details and synthesizes multimodal evidence, achieving state-of-the-art performance on five challenging multimodal search benchmarks.

0 favorites 0 likes

active-visual-reasoning

Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

Submit Feedback