multimodal-agents

#multimodal-agents

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

Hugging Face Daily Papers ↗ · 4d ago Cached

This paper introduces On-Policy Data Evolution (ODE) and a visual-native agent harness to improve multimodal deep search agents. By enabling reusable visual evidence and closed-loop data generation, ODE significantly boosts the performance of Qwen3-VL agents across multiple benchmarks, surpassing Gemini 2.5 Pro.

0 favorites 0 likes

#multimodal-agents

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Hugging Face Daily Papers ↗ · 2026-05-08 Cached

HyperEyes is a parallel multimodal search agent that uses dual-grained reinforcement learning to optimize inference efficiency, achieving higher accuracy with significantly fewer tool-call rounds compared to existing agents.

0 favorites 0 likes

#multimodal-agents

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

Hugging Face Daily Papers ↗ · 2026-05-08 Cached

InterLV-Search is a new benchmark introduced in this paper to evaluate interleaved language-vision agentic search, highlighting limitations in current systems regarding visual evidence seeking and multimodal integration.

0 favorites 0 likes

multimodal-agents

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

Submit Feedback