token-level-analysis

#token-level-analysis

DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning

Hugging Face Daily Papers ↗ · 2026-06-06 Cached

This paper identifies that failures in visual reasoning often stem from breakdowns in dynamic cross-modal coordination between visual and textual evidence during chain-of-thought generation. It introduces DyCo-RL, a reinforcement learning framework that rewards effective cross-modal coordination, leading to improved reasoning performance.

0 favorites 0 likes

token-level-analysis

DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning

Submit Feedback