visual-attention

标签

Cards List
#visual-attention

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

arXiv cs.CL · 2026-05-22 缓存

Faithful-MR1 是一个训练框架,通过 <Focus> 令牌锚定视觉注意,并利用反事实图像干预强化可信使用,从而提升多模态大语言模型(MLLM)中可信的多模态推理能力。它在使用更少训练数据的情况下,在 Qwen2.5-VL 骨干网络上的表现优于基线模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈