标签
提出Perceive-to-Reason(P2R)框架,通过两阶段流程和角色感知的强化学习策略,将视觉语言模型中的视觉感知与推理解耦,在细粒度视觉推理基准上达到最先进水平。
V-Zero 是一种新颖的无标签框架,用于细粒度视觉推理,它利用对比证据门控和在线策略蒸馏,无需标注答案标签即可提升性能,且训练速度远超传统方法。