利用自监督指南提升视觉指令调优

Hugging Face Daily Papers 论文

摘要

本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。

多模态大语言模型(MLLMs)在许多视觉-语言任务上表现良好,但常常在以视觉为中心的任务(需要细粒度视觉推理)上遇到困难。近期证据表明,这一限制并非源于视觉表征薄弱,而是由于指令调优过程中视觉信息利用不足——许多任务可以仅依靠语言先验部分解决。我们提出了一种简单且轻量级的方法,通过将少量基于视觉的自监督任务表达为自然语言指令,来增强视觉指令调优。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,我们引入了必须依赖视觉证据才能解决的监督信号。我们的方法无需人工标注、无需修改架构、无需增加训练阶段。在多个模型、训练设置和基准测试中,仅注入少量(3%-10%)的此类视觉化指令,就能持续提升以视觉为中心的性能评估。我们的发现强调,使用基于视觉的自监督学习任务进行指令调优,是通过简单调整训练数据分布来提升MLLMs视觉推理能力的有效手段。代码地址:https://github.com/sirkosophia/V-GIFT
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - 利用自监督引导提升视觉指令微调

来源:https://huggingface.co/papers/2604.12966

摘要

通过自然表述的自监督任务增强视觉指令微调,可以在不增加额外架构或标注的情况下,提升多模态语言模型在视觉中心推理上的表现。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%models)(MLLMs) 在许多视觉语言任务 (https://huggingface.co/papers?q=vision-language%20tasks) 上表现良好,但往往难以处理需要细粒度视觉推理 (https://huggingface.co/papers?q=visual%20reasoning) 的视觉中心问题。最新证据表明,这一局限并非源于视觉表示薄弱,而是因为指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 过程中视觉信息利用不足——许多任务仅凭语言先验即可部分解决。我们提出一种简单轻量的方法,通过为视觉指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 添加少量以自然语言指令形式表达的视觉基础自监督任务,来进行增强。通过将经典的自我监督预文本任务 (https://huggingface.co/papers?q=pretext%20tasks)(如旋转预测、颜色匹配、跨视角对应)转化为图像-指令-响应三元组 (https://huggingface.co/papers?q=image-instruction-response%20triplets),我们引入了无法脱离视觉证据解决的监督信号。该方法无需人工标注、无需架构修改、也无需额外训练阶段。在多种模型、训练方案和基准测试上,仅注入一小部分(3%-10%)此类视觉基础指令,就能在视觉中心评估中持续提升性能。我们的发现强调了,通过简单调整训练数据分布,将带有视觉基础自监督学习任务的指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 作为提升 MLLMs 视觉推理 (https://huggingface.co/papers?q=visual%20reasoning) 能力的强大杠杆。代码已开源:https://github.com/sirkosophia/V-GIFT

查看 arXiv 页面 (https://arxiv.org/abs/2604.12966) 查看 PDF (https://arxiv.org/pdf/2604.12966) GitHub13 (https://github.com/sirkosophia/V-GIFT) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12966)

在你的代理中获取此论文:

hf papers read 2604.12966

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。

引用此论文的数据集0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。

引用此论文的空间0

没有空间关联此论文

请在空间 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

统一多模态模型的语义生成微调

Hugging Face Daily Papers

介绍了语义生成微调(SGT),一种利用图像分割作为生成代理来对齐统一多模态模型中的视觉理解和生成任务的范式,从而提升理解能力和生成保真度。