roma

#roma

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

本文介绍了 ROMA，这是一种强化学习微调框架，旨在提高多模态大语言模型（MLLMs）对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标，在保持干净输入准确性的同时，提升了推理基准测试的性能。

0 人收藏 0 人点赞