visual-instruction-tuning

标签

Cards List
#visual-instruction-tuning

利用自监督指南提升视觉指令调优

Hugging Face Daily Papers · 2026-04-14 缓存

本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈