visual-attention

#visual-attention

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

arXiv cs.CL ↗ · 2026-05-22 缓存

Faithful-MR1 是一个训练框架，通过 <Focus> 令牌锚定视觉注意，并利用反事实图像干预强化可信使用，从而提升多模态大语言模型（MLLM）中可信的多模态推理能力。它在使用更少训练数据的情况下，在 Qwen2.5-VL 骨干网络上的表现优于基线模型。

0 人收藏 0 人点赞