增强多模态推理以对抗视觉退化

Hugging Face Daily Papers 2026/05/10 00:00 论文

multimodal-llm reinforcement-learning robustness visual-degradation fine-tuning roma

摘要

本文介绍了 ROMA，这是一种强化学习微调框架，旨在提高多模态大语言模型（MLLMs）对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标，在保持干净输入准确性的同时，提升了推理基准测试的性能。

强化学习（RL）显著提升了多模态大语言模型（MLLMs）的推理能力，然而由此产生的策略在面对模糊、压缩伪影和低分辨率扫描等现实世界中的视觉退化时仍然显得脆弱。此前来自计算机视觉和深度强化学习领域的鲁棒性技术依赖于静态数据增强或基于价值的正则化，但这些方法都无法直接迁移到自回归 MLLM 的无评论家（critic-free）强化学习微调中。针对此类损坏增强推理并非易事：在 rollout（采样）过程中简单地注入退化视图会导致奖励中毒（reward poisoning），即感知遮挡会触发幻觉轨迹并 destabilize（破坏）优化过程。我们提出了 ROMA，这是一种强化学习微调框架，通过修改优化动态来增强对抗视觉退化的推理能力，同时保留对干净输入的性能。双重前向传播策略利用教师强制（teacher forcing）将退化视图与干净图像的轨迹进行评估，从而避免在退化输入上进行新的 rollout。为了确保分布一致性，我们应用了针对最坏情况增量的 token 级替代 KL 惩罚；为了防止策略在正则化下崩溃，一个以干净图像优势为锚点的辅助策略梯度损失保留了可靠的奖励信号；此外，为了避免系统性的错误不变性，正确性条件正则化将约束限制在成功的轨迹上。在 Qwen3-VL 4B/8B 模型以及七个多模态推理基准测试中，与 GRPO 相比，我们的方法在已知损坏上的鲁棒性提高了 +2.4%，在未知损坏上提高了 +2.3%，同时保持了与干净输入相同的准确性。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:34

Paper page - Reinforcing Multimodal Reasoning Against Visual Degradation

Source: https://huggingface.co/papers/2605.09262

摘要

ROMA 是一个强化学习微调框架，它通过双前向传播策略和专门的正则化技术，增强了多模态大语言模型对视觉退化的鲁棒性，同时保持了对干净输入数据的性能。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 显著提升了多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)（MLLMs）的推理能力，然而，其生成的策略在面对现实世界中的视觉退化 (https://huggingface.co/papers?q=visual%20degradation)，如模糊、压缩伪影和低分辨率扫描时，仍然显得脆弱。先前来自视觉和深度强化学习领域的鲁棒性技术依赖于静态数据增强或基于价值的正则化，这些方法都无法直接应用于自回归 MLLMs 的无 Critic 强化学习微调。针对此类损坏增强推理能力并非易事：在 rollout 过程中简单地注入退化视图会导致奖励中毒 (https://huggingface.co/papers?q=reward%20poisoning)，即感知上的遮挡会触发幻觉轨迹并 destabilize 优化过程。我们提出了 ROMA，一个强化学习微调框架，它修改了优化动态，以增强对视觉退化 (https://huggingface.co/papers?q=visual%20degradation) 的推理能力，同时保持对干净输入的性能。双前向传播策略使用教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 来评估退化视图与干净图像轨迹的对比，避免在退化输入上进行新的 rollout。为了保持一致性，我们应用了针对最坏情况增强的词元级代理 KL 惩罚 (https://huggingface.co/papers?q=token-level%20surrogate%20KL%20penalty)；为了防止策略在正则化下发生策略崩溃 (https://huggingface.co/papers?q=policy%20collapse)，一个锚定在干净图像优势上的辅助策略梯度损失保留了可靠的奖励信号；为了避免系统性的错误不变性，正确性条件正则化 (https://huggingface.co/papers?q=correctness-conditioned%20regularization) 将约束限制在成功的轨迹上。在 Qwen3-VL 4B/8B 上，我们在七个多模态推理基准上，与 GRPO (https://huggingface.co/papers?q=GRPO) 相比，我们的方法在可见和不可见的损坏上分别提高了 +2.4% 和 +2.3% 的鲁棒性，同时匹配了干净准确率。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09262) 查看 PDF (https://arxiv.org/pdf/2605.09262) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.09262)

在您的 Agent 中获取这篇论文：

hf papers read 2605\.09262

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有引用此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。

引用此论文的数据集 0

没有引用此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。

引用此论文的空间 0

没有引用此论文的空间

在空间的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

添加此论文到集合 (https://huggingface.co/new-collection) 以在此页面链接它。

增强多模态推理以对抗视觉退化

Paper page - Reinforcing Multimodal Reasoning Against Visual Degradation

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的集合 0

相似文章

Robust-U1：多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解？

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

通过最差维度优化改进多模态推理

使用ART微调多模态大语言模型：基于艺术强化训练

提交意见反馈