Robust-U1：多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解？

Hugging Face Daily Papers 2026/06/06 00:00 论文

摘要

Robust-U1 是一个框架，通过监督微调、双奖励强化学习和联合多模态推理，使多模态大语言模型能够自我修复受损的视觉内容，在鲁棒性基准测试上达到了最先进水平。

多模态大语言模型在视觉理解方面取得了显著成功，但在真实世界的视觉损坏下其性能会大幅下降。虽然存在现有的鲁棒性增强方法，但它们存在局限性：黑盒特征对齐缺乏可解释性，而白盒基于文本的推理无法恢复丢失的像素级细节。本文研究一个基础性问题：多模态大语言模型能否自行恢复受损的视觉内容？为此，我们提出 Robust-U1，一种赋予多模态大语言模型显式视觉自我修复能力以实现鲁棒理解的新框架。该方法包含三个核心阶段：监督微调用于初始重建；双奖励（像素级 SSIM 和语义级 CLIP 相似度）强化学习用于对齐高视觉质量；以及联合考虑受损输入和修复图像的多模态推理。大量实验表明，Robust-U1 在真实世界损坏基准上达到了最先进的鲁棒性，并在通用 VQA 基准上面对对抗性损坏时保持了优越性能。分析证实，高质量的视觉修复直接提升了推理性能，确立了自我修复作为鲁棒视觉理解的关键机制。源代码可在 https://github.com/jqtangust/Robust-U1 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - Robust-U1：多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解？

来源：https://huggingface.co/papers/2606.08063

摘要

Robust-U1 通过自我修复能力增强了多模态大语言模型在面对视觉损坏时的鲁棒性，既提升了视觉质量也改善了推理性能。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%models)（MLLMs）在视觉理解方面取得了显著成功，但在真实世界的视觉损坏 (https://huggingface.co/papers?q=visual%20corruptions) 下性能会大幅下降。虽然已有一些鲁棒性增强 (https://huggingface.co/papers?q=robustness%20enhancement) 方法，但它们都存在局限性：黑盒特征对齐缺乏可解释性，而白盒基于文本的推理无法恢复丢失的像素级细节。这项工作探索了一个基本研究问题：MLLMs 能否自行恢复受损的视觉内容？为此，我们提出了 Robust-U1，一个新颖的框架，赋予 MLLMs 明确的视觉自我修复 (https://huggingface.co/papers?q=visual%20self-recovery) 能力以实现鲁棒理解。该方法包含三个核心阶段：有监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 用于初始重建，强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 配合双重奖励 (https://huggingface.co/papers?q=dual%20rewards)（像素级 SSIM (https://huggingface.co/papers?q=pixel-level%20SSIM) 和语义级 CLIP 相似度 (https://huggingface.co/papers?q=semantic-level%20CLIP%20similarity)）以对齐高视觉质量，以及多模态推理 (https://huggingface.co/papers?q=multimodal%20reasoning) 同时考虑受损输入和恢复后的图像。大量实验表明，Robust-U1 在真实世界损坏基准测试中达到了最先进的鲁棒性，并在通用 VQA 基准测试的对抗性损坏下保持了优越性能。分析证实，高质量的视觉恢复直接提升了推理性能，将自我修复确立为鲁棒视觉理解的关键机制。源代码可在 https://github.com/jqtangust/Robust-U1 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.08063) 查看 PDF (https://arxiv.org/pdf/2606.08063) 项目页面 (https://huggingface.co/spaces/Jiaqi-hkust/Robust-U1) GitHub13 (https://github.com/jqtangust/Robust-U1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08063)

社区

论文提交者

约3小时前 (https://huggingface.co/papers/2606.08063#6a2b8001c48e81bb30822c8c)

多模态大语言模型（MLLMs）在视觉理解方面取得了显著成功，但在真实世界的视觉损坏下性能会大幅下降。虽然已有一些鲁棒性增强方法，但它们都存在局限性：黑盒特征对齐缺乏可解释性，而白盒基于文本的推理无法恢复丢失的像素级细节。这项工作探索了一个基本研究问题：MLLMs 能否自行恢复受损的视觉内容？为此，我们提出了 Robust-U1，一个新颖的框架，赋予 MLLMs 明确的视觉自我修复能力以实现鲁棒理解。该方法包含三个核心阶段：有监督微调用于初始重建，强化学习配合双重奖励（像素级 SSIM 和语义级 CLIP 相似度）以对齐高视觉质量，以及多模态推理同时考虑受损输入和恢复后的图像。大量实验表明，Robust-U1 在真实世界损坏基准测试中达到了最先进的鲁棒性，并在通用 VQA 基准测试的对抗性损坏下保持了优越性能。分析证实，高质量的视觉恢复直接提升了推理性能，将自我修复确立为鲁棒视觉理解的关键机制。

通过拖拽文本输入、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

在你的代理中获取这篇论文：

hf papers read 2606\.08063

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型3

Jiaqi-hkust/Robust-U1-SFT 15B• 更新于约3小时前 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1-SFT)

Jiaqi-hkust/Robust-U1-RL 15B• 更新于约3小时前 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1-RL)

Jiaqi-hkust/Robust-U1 15B• 更新于约3小时前 • 6 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1)

引用此论文的数据集0

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.08063 以从此页面链接。

Robust-U1：多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解？

论文页面 - Robust-U1：多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解？

摘要

社区

引用此论文的模型3

Jiaqi-hkust/Robust-U1-SFT 15B• 更新于约3小时前 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1-SFT)

Jiaqi-hkust/Robust-U1-RL 15B• 更新于约3小时前 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1-RL)

Jiaqi-hkust/Robust-U1 15B• 更新于约3小时前 • 6 • 1 (https://huggingface.co/Jiaqi-hkust/Robust-U1)

引用此论文的数据集0

引用此论文的 Spaces1

包含此论文的收藏1

相似文章

增强多模态推理以对抗视觉退化

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

观看、记忆、推理：基于MLLMs的人类视角视频理解

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

BalCapRL：一种用于基于强化学习的 MLLM 图像描述生成的平衡框架

提交意见反馈