增强多模态推理以对抗视觉退化
摘要
本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。
查看缓存全文
缓存时间: 2026/05/12 07:34
Paper page - Reinforcing Multimodal Reasoning Against Visual Degradation
Source: https://huggingface.co/papers/2605.09262
摘要
ROMA 是一个强化学习微调框架,它通过双前向传播策略和专门的正则化技术,增强了多模态大语言模型对视觉退化的鲁棒性,同时保持了对干净输入数据的性能。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 显著提升了多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)的推理能力,然而,其生成的策略在面对现实世界中的视觉退化 (https://huggingface.co/papers?q=visual%20degradation),如模糊、压缩伪影和低分辨率扫描时,仍然显得脆弱。先前来自视觉和深度强化学习领域的鲁棒性技术依赖于静态数据增强或基于价值的正则化,这些方法都无法直接应用于自回归 MLLMs 的无 Critic 强化学习微调。针对此类损坏增强推理能力并非易事:在 rollout 过程中简单地注入退化视图会导致奖励中毒 (https://huggingface.co/papers?q=reward%20poisoning),即感知上的遮挡会触发幻觉轨迹并 destabilize 优化过程。我们提出了 ROMA,一个强化学习微调框架,它修改了优化动态,以增强对视觉退化 (https://huggingface.co/papers?q=visual%20degradation) 的推理能力,同时保持对干净输入的性能。双前向传播策略使用教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 来评估退化视图与干净图像轨迹的对比,避免在退化输入上进行新的 rollout。为了保持一致性,我们应用了针对最坏情况增强的词元级代理 KL 惩罚 (https://huggingface.co/papers?q=token-level%20surrogate%20KL%20penalty);为了防止策略在正则化下发生策略崩溃 (https://huggingface.co/papers?q=policy%20collapse),一个锚定在干净图像优势上的辅助策略梯度损失保留了可靠的奖励信号;为了避免系统性的错误不变性,正确性条件正则化 (https://huggingface.co/papers?q=correctness-conditioned%20regularization) 将约束限制在成功的轨迹上。在 Qwen3-VL 4B/8B 上,我们在七个多模态推理基准上,与 GRPO (https://huggingface.co/papers?q=GRPO) 相比,我们的方法在可见和不可见的损坏上分别提高了 +2.4% 和 +2.3% 的鲁棒性,同时匹配了干净准确率。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09262) 查看 PDF (https://arxiv.org/pdf/2605.09262) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.09262)
在您的 Agent 中获取这篇论文:
hf papers read 2605\.09262
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有引用此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。
引用此论文的数据集 0
没有引用此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。
引用此论文的空间 0
没有引用此论文的空间
在空间的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。
包含此论文的集合 0
没有包含此论文的集合
添加此论文到集合 (https://huggingface.co/new-collection) 以在此页面链接它。
相似文章
Robust-U1:多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解?
Robust-U1 是一个框架,通过监督微调、双奖励强化学习和联合多模态推理,使多模态大语言模型能够自我修复受损的视觉内容,在鲁棒性基准测试上达到了最先进水平。
CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距
本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
通过最差维度优化改进多模态推理
本文提出了多模态多维度标量化过程奖励建模(MMS-PRM),该方法在多模态推理中强制最差维度的鲁棒性,以防止视觉幻觉等失败被强大的文本逻辑掩盖。
使用ART微调多模态大语言模型:基于艺术强化训练
ART(基于艺术强化训练)通过梯度反向传播优化原始视觉输入,实现对冻结的多模态大语言模型的参数高效微调,其性能与LoRA相当,同时支持为vLLM等高吞吐引擎预编译的计算图。