visual-instruction-tuning

#visual-instruction-tuning

利用自监督指南提升视觉指令调优

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

本文提出通过将自监督任务表达为自然语言指令，增强多模态语言模型中的视觉指令调优，从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务（如旋转预测、颜色匹配和跨视角对应）重构为图像-指令-响应对，该方法仅需在训练数据中注入3%-10%的视觉化指令，便能在多个基准测试中实现一致的性能提升。

0 人收藏 0 人点赞

visual-instruction-tuning

利用自监督指南提升视觉指令调优

提交意见反馈