增强多模态推理以对抗视觉退化

Hugging Face Daily Papers 论文

摘要

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。

强化学习(RL)显著提升了多模态大语言模型(MLLMs)的推理能力,然而由此产生的策略在面对模糊、压缩伪影和低分辨率扫描等现实世界中的视觉退化时仍然显得脆弱。此前来自计算机视觉和深度强化学习领域的鲁棒性技术依赖于静态数据增强或基于价值的正则化,但这些方法都无法直接迁移到自回归 MLLM 的无评论家(critic-free)强化学习微调中。针对此类损坏增强推理并非易事:在 rollout(采样)过程中简单地注入退化视图会导致奖励中毒(reward poisoning),即感知遮挡会触发幻觉轨迹并 destabilize(破坏)优化过程。我们提出了 ROMA,这是一种强化学习微调框架,通过修改优化动态来增强对抗视觉退化的推理能力,同时保留对干净输入的性能。双重前向传播策略利用教师强制(teacher forcing)将退化视图与干净图像的轨迹进行评估,从而避免在退化输入上进行新的 rollout。为了确保分布一致性,我们应用了针对最坏情况增量的 token 级替代 KL 惩罚;为了防止策略在正则化下崩溃,一个以干净图像优势为锚点的辅助策略梯度损失保留了可靠的奖励信号;此外,为了避免系统性的错误不变性,正确性条件正则化将约束限制在成功的轨迹上。在 Qwen3-VL 4B/8B 模型以及七个多模态推理基准测试中,与 GRPO 相比,我们的方法在已知损坏上的鲁棒性提高了 +2.4%,在未知损坏上提高了 +2.3%,同时保持了与干净输入相同的准确性。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:34

Paper page - Reinforcing Multimodal Reasoning Against Visual Degradation

Source: https://huggingface.co/papers/2605.09262

摘要

ROMA 是一个强化学习微调框架,它通过双前向传播策略和专门的正则化技术,增强了多模态大语言模型对视觉退化的鲁棒性,同时保持了对干净输入数据的性能。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning) 显著提升了多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)的推理能力,然而,其生成的策略在面对现实世界中的视觉退化 (https://huggingface.co/papers?q=visual%20degradation),如模糊、压缩伪影和低分辨率扫描时,仍然显得脆弱。先前来自视觉和深度强化学习领域的鲁棒性技术依赖于静态数据增强或基于价值的正则化,这些方法都无法直接应用于自回归 MLLMs 的无 Critic 强化学习微调。针对此类损坏增强推理能力并非易事:在 rollout 过程中简单地注入退化视图会导致奖励中毒 (https://huggingface.co/papers?q=reward%20poisoning),即感知上的遮挡会触发幻觉轨迹并 destabilize 优化过程。我们提出了 ROMA,一个强化学习微调框架,它修改了优化动态,以增强对视觉退化 (https://huggingface.co/papers?q=visual%20degradation) 的推理能力,同时保持对干净输入的性能。双前向传播策略使用教师强制 (https://huggingface.co/papers?q=teacher%20forcing) 来评估退化视图与干净图像轨迹的对比,避免在退化输入上进行新的 rollout。为了保持一致性,我们应用了针对最坏情况增强的词元级代理 KL 惩罚 (https://huggingface.co/papers?q=token-level%20surrogate%20KL%20penalty);为了防止策略在正则化下发生策略崩溃 (https://huggingface.co/papers?q=policy%20collapse),一个锚定在干净图像优势上的辅助策略梯度损失保留了可靠的奖励信号;为了避免系统性的错误不变性,正确性条件正则化 (https://huggingface.co/papers?q=correctness-conditioned%20regularization) 将约束限制在成功的轨迹上。在 Qwen3-VL 4B/8B 上,我们在七个多模态推理基准上,与 GRPO (https://huggingface.co/papers?q=GRPO) 相比,我们的方法在可见和不可见的损坏上分别提高了 +2.4% 和 +2.3% 的鲁棒性,同时匹配了干净准确率。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09262) 查看 PDF (https://arxiv.org/pdf/2605.09262) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.09262)

在您的 Agent 中获取这篇论文:

hf papers read 2605\.09262

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有引用此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。

引用此论文的数据集 0

没有引用此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。

引用此论文的空间 0

没有引用此论文的空间

在空间的 README.md 中引用 arxiv.org/abs/2605.09262 以在此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

添加此论文到集合 (https://huggingface.co/new-collection) 以在此页面链接它。

相似文章

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

通过最差维度优化改进多模态推理

arXiv cs.AI

本文提出了多模态多维度标量化过程奖励建模(MMS-PRM),该方法在多模态推理中强制最差维度的鲁棒性,以防止视觉幻觉等失败被强大的文本逻辑掩盖。

使用ART微调多模态大语言模型:基于艺术强化训练

Hugging Face Daily Papers

ART(基于艺术强化训练)通过梯度反向传播优化原始视觉输入,实现对冻结的多模态大语言模型的参数高效微调,其性能与LoRA相当,同时支持为vLLM等高吞吐引擎预编译的计算图。