roma

#roma

Reinforcing Multimodal Reasoning Against Visual Degradation

Hugging Face Daily Papers ↗ · 2026-05-10 Cached

This paper introduces ROMA, an RL fine-tuning framework that enhances the robustness of multimodal large language models against visual degradations like blur and compression artifacts. It achieves this through a dual-forward-pass strategy and specialized regularization techniques, improving performance on reasoning benchmarks without sacrificing accuracy on clean inputs.

0 favorites 0 likes

roma

Reinforcing Multimodal Reasoning Against Visual Degradation

Submit Feedback