Robust-U1:多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解?
摘要
Robust-U1 是一个框架,通过监督微调、双奖励强化学习和联合多模态推理,使多模态大语言模型能够自我修复受损的视觉内容,在鲁棒性基准测试上达到了最先进水平。
查看缓存全文
缓存时间: 2026/06/12 06:51
论文页面 - Robust-U1:多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解?
来源:https://huggingface.co/papers/2606.08063
摘要
Robust-U1 通过自我修复能力增强了多模态大语言模型在面对视觉损坏时的鲁棒性,既提升了视觉质量也改善了推理性能。
多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%models)(MLLMs)在视觉理解方面取得了显著成功,但在真实世界的视觉损坏 (https://huggingface.co/papers?q=visual%20corruptions) 下性能会大幅下降。虽然已有一些鲁棒性增强 (https://huggingface.co/papers?q=robustness%20enhancement) 方法,但它们都存在局限性:黑盒特征对齐缺乏可解释性,而白盒基于文本的推理无法恢复丢失的像素级细节。这项工作探索了一个基本研究问题:MLLMs 能否自行恢复受损的视觉内容?为此,我们提出了 Robust-U1,一个新颖的框架,赋予 MLLMs 明确的视觉自我修复 (https://huggingface.co/papers?q=visual%20self-recovery) 能力以实现鲁棒理解。该方法包含三个核心阶段:有监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 用于初始重建,强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 配合双重奖励 (https://huggingface.co/papers?q=dual%20rewards)(像素级 SSIM (https://huggingface.co/papers?q=pixel-level%20SSIM) 和语义级 CLIP 相似度 (https://huggingface.co/papers?q=semantic-level%20CLIP%20similarity))以对齐高视觉质量,以及多模态推理 (https://huggingface.co/papers?q=multimodal%20reasoning) 同时考虑受损输入和恢复后的图像。大量实验表明,Robust-U1 在真实世界损坏基准测试中达到了最先进的鲁棒性,并在通用 VQA 基准测试的对抗性损坏下保持了优越性能。分析证实,高质量的视觉恢复直接提升了推理性能,将自我修复确立为鲁棒视觉理解的关键机制。源代码可在 https://github.com/jqtangust/Robust-U1 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2606.08063) 查看 PDF (https://arxiv.org/pdf/2606.08063) 项目页面 (https://huggingface.co/spaces/Jiaqi-hkust/Robust-U1) GitHub13 (https://github.com/jqtangust/Robust-U1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08063)
社区
论文提交者
约3小时前 (https://huggingface.co/papers/2606.08063#6a2b8001c48e81bb30822c8c)
多模态大语言模型(MLLMs)在视觉理解方面取得了显著成功,但在真实世界的视觉损坏下性能会大幅下降。虽然已有一些鲁棒性增强方法,但它们都存在局限性:黑盒特征对齐缺乏可解释性,而白盒基于文本的推理无法恢复丢失的像素级细节。这项工作探索了一个基本研究问题:MLLMs 能否自行恢复受损的视觉内容?为此,我们提出了 Robust-U1,一个新颖的框架,赋予 MLLMs 明确的视觉自我修复能力以实现鲁棒理解。该方法包含三个核心阶段:有监督微调用于初始重建,强化学习配合双重奖励(像素级 SSIM 和语义级 CLIP 相似度)以对齐高视觉质量,以及多模态推理同时考虑受损输入和恢复后的图像。大量实验表明,Robust-U1 在真实世界损坏基准测试中达到了最先进的鲁棒性,并在通用 VQA 基准测试的对抗性损坏下保持了优越性能。分析证实,高质量的视觉恢复直接提升了推理性能,将自我修复确立为鲁棒视觉理解的关键机制。
通过拖拽文本输入、粘贴或点击此处上传图片、音频和视频。
点击或粘贴此处以上传图片
在你的代理中获取这篇论文:
hf papers read 2606\.08063
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型3
Jiaqi-hkust/Robust-U1-SFT 15B• 更新于约3小时前 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1-SFT)
Jiaqi-hkust/Robust-U1-RL 15B• 更新于约3小时前 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1-RL)
Jiaqi-hkust/Robust-U1 15B• 更新于约3小时前 • 6 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1)
引用此论文的数据集0
没有数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.08063 以从此页面链接。
引用此论文的 Spaces1
包含此论文的收藏1
相似文章
增强多模态推理以对抗视觉退化
本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。
LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。
观看、记忆、推理:基于MLLMs的人类视角视频理解
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。
Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理
Faithful-MR1 是一个训练框架,通过 <Focus> 令牌锚定视觉注意,并利用反事实图像干预强化可信使用,从而提升多模态大语言模型(MLLM)中可信的多模态推理能力。它在使用更少训练数据的情况下,在 Qwen2.5-VL 骨干网络上的表现优于基线模型。
BalCapRL:一种用于基于强化学习的 MLLM 图像描述生成的平衡框架
本文介绍了 BalCapRL,这是一种针对多模态大语言模型(MLLM)的平衡强化学习框架,旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡,该方法在性能上优于现有方法。