attention-consistency

#attention-consistency

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

arXiv cs.AI ↗ · 4d ago Cached

Proposes an attention-guided encoder-decoder for longitudinal medical visual question answering, using a frozen DINO-based mask generator and auxiliary losses to improve consistency and interpretability, achieving strong results on the Medical-Diff-VQA benchmark.

0 favorites 0 likes

attention-consistency

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

Submit Feedback