利用自监督指南提升视觉指令调优

Hugging Face Daily Papers 2026/04/14 00:00 论文

摘要

本文提出通过将自监督任务表达为自然语言指令，增强多模态语言模型中的视觉指令调优，从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务（如旋转预测、颜色匹配和跨视角对应）重构为图像-指令-响应对，该方法仅需在训练数据中注入3%-10%的视觉化指令，便能在多个基准测试中实现一致的性能提升。

多模态大语言模型（MLLMs）在许多视觉-语言任务上表现良好，但常常在以视觉为中心的任务（需要细粒度视觉推理）上遇到困难。近期证据表明，这一限制并非源于视觉表征薄弱，而是由于指令调优过程中视觉信息利用不足——许多任务可以仅依靠语言先验部分解决。我们提出了一种简单且轻量级的方法，通过将少量基于视觉的自监督任务表达为自然语言指令，来增强视觉指令调优。通过将经典的自监督预文本任务（如旋转预测、颜色匹配和跨视角对应）重构为图像-指令-响应对，我们引入了必须依赖视觉证据才能解决的监督信号。我们的方法无需人工标注、无需修改架构、无需增加训练阶段。在多个模型、训练设置和基准测试中，仅注入少量（3%-10%）的此类视觉化指令，就能持续提升以视觉为中心的性能评估。我们的发现强调，使用基于视觉的自监督学习任务进行指令调优，是通过简单调整训练数据分布来提升MLLMs视觉推理能力的有效手段。代码地址：https://github.com/sirkosophia/V-GIFT

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - 利用自监督引导提升视觉指令微调

来源：https://huggingface.co/papers/2604.12966

摘要

通过自然表述的自监督任务增强视觉指令微调，可以在不增加额外架构或标注的情况下，提升多模态语言模型在视觉中心推理上的表现。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%models)(MLLMs) 在许多视觉语言任务 (https://huggingface.co/papers?q=vision-language%20tasks) 上表现良好，但往往难以处理需要细粒度视觉推理 (https://huggingface.co/papers?q=visual%20reasoning) 的视觉中心问题。最新证据表明，这一局限并非源于视觉表示薄弱，而是因为指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 过程中视觉信息利用不足——许多任务仅凭语言先验即可部分解决。我们提出一种简单轻量的方法，通过为视觉指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 添加少量以自然语言指令形式表达的视觉基础自监督任务，来进行增强。通过将经典的自我监督预文本任务 (https://huggingface.co/papers?q=pretext%20tasks)（如旋转预测、颜色匹配、跨视角对应）转化为图像-指令-响应三元组 (https://huggingface.co/papers?q=image-instruction-response%20triplets)，我们引入了无法脱离视觉证据解决的监督信号。该方法无需人工标注、无需架构修改、也无需额外训练阶段。在多种模型、训练方案和基准测试上，仅注入一小部分（3%-10%）此类视觉基础指令，就能在视觉中心评估中持续提升性能。我们的发现强调了，通过简单调整训练数据分布，将带有视觉基础自监督学习任务的指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 作为提升 MLLMs 视觉推理 (https://huggingface.co/papers?q=visual%20reasoning) 能力的强大杠杆。代码已开源：https://github.com/sirkosophia/V-GIFT

查看 arXiv 页面 (https://arxiv.org/abs/2604.12966) 查看 PDF (https://arxiv.org/pdf/2604.12966) GitHub13 (https://github.com/sirkosophia/V-GIFT) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12966)

在你的代理中获取此论文：

hf papers read 2604.12966

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。

引用此论文的数据集0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。

引用此论文的空间0

没有空间关联此论文

请在空间 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

利用自监督指南提升视觉指令调优

论文页面 - 利用自监督引导提升视觉指令微调

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏集0

相似文章

分解大语言模型的基本能力：在多任务指令微调中缓解跨任务干扰

通过理解监督引导统一多模态模型中的视觉生成

检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

统一多模态模型的语义生成微调

通过工具监督强化学习实现视觉推理

提交意见反馈