利用自监督指南提升视觉指令调优
摘要
本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - 利用自监督引导提升视觉指令微调
来源:https://huggingface.co/papers/2604.12966
摘要
通过自然表述的自监督任务增强视觉指令微调,可以在不增加额外架构或标注的情况下,提升多模态语言模型在视觉中心推理上的表现。
多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%models)(MLLMs) 在许多视觉语言任务 (https://huggingface.co/papers?q=vision-language%20tasks) 上表现良好,但往往难以处理需要细粒度视觉推理 (https://huggingface.co/papers?q=visual%20reasoning) 的视觉中心问题。最新证据表明,这一局限并非源于视觉表示薄弱,而是因为指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 过程中视觉信息利用不足——许多任务仅凭语言先验即可部分解决。我们提出一种简单轻量的方法,通过为视觉指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 添加少量以自然语言指令形式表达的视觉基础自监督任务,来进行增强。通过将经典的自我监督预文本任务 (https://huggingface.co/papers?q=pretext%20tasks)(如旋转预测、颜色匹配、跨视角对应)转化为图像-指令-响应三元组 (https://huggingface.co/papers?q=image-instruction-response%20triplets),我们引入了无法脱离视觉证据解决的监督信号。该方法无需人工标注、无需架构修改、也无需额外训练阶段。在多种模型、训练方案和基准测试上,仅注入一小部分(3%-10%)此类视觉基础指令,就能在视觉中心评估中持续提升性能。我们的发现强调了,通过简单调整训练数据分布,将带有视觉基础自监督学习任务的指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 作为提升 MLLMs 视觉推理 (https://huggingface.co/papers?q=visual%20reasoning) 能力的强大杠杆。代码已开源:https://github.com/sirkosophia/V-GIFT
查看 arXiv 页面 (https://arxiv.org/abs/2604.12966) 查看 PDF (https://arxiv.org/pdf/2604.12966) GitHub13 (https://github.com/sirkosophia/V-GIFT) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12966)
在你的代理中获取此论文:
hf papers read 2604.12966
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。
引用此论文的数据集0
没有数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。
引用此论文的空间0
没有空间关联此论文
请在空间 README.md 中引用 arxiv.org/abs/2604.12966 以在此页面建立链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。
通过理解监督引导统一多模态模型中的视觉生成
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
检索,而非重新训练:在测试时将视觉语言动作模型扩展到新任务
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
统一多模态模型的语义生成微调
介绍了语义生成微调(SGT),一种利用图像分割作为生成代理来对齐统一多模态模型中的视觉理解和生成任务的范式,从而提升理解能力和生成保真度。
通过工具监督强化学习实现视觉推理
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。