基于视觉基础模型引导的注意力一致性纵向医学视觉问答

arXiv cs.AI 2026/06/08 04:00 论文

摘要

提出了一种用于纵向医学视觉问答的注意力引导编码器-解码器，使用冻结的基于DINO的掩码生成器和辅助损失函数来提高一致性和可解释性，在Medical-Diff-VQA基准上取得了强劲的结果。

arXiv:2606.06534v1 公告类型：cross 摘要：纵向医学视觉问答（VQA）需要对当前时间点的图像与参考时间点的图像之间的解剖差异进行推理。我们针对胸部X光片提出了一种注意力引导的编码器-解码器方法。与传统的直接对比不同，我们引入了一个轻量级的仿射配准模块，通过一个小型配准正则化器将当前图像与参考图像进行共配准，以减少干扰运动。配准后的图像对输入图像编码器，随后通过冻结的基于DINO的掩码生成器和一个可训练的适应性掩码生成器生成掩码，这些掩码应用于原始图像对。掩码后的图像对再次输入图像编码器，并与文本特征拼接作为多模态基于Transformer的解码器的输入，以生成最终答案。为了促进学习稳定并澄清变化信号，受DINO-v3启发，我们增加了额外的辅助目标，包括掩码重建损失、成对Gram风格一致性损失和KoLeo均匀性损失，这些损失增强了表示的几何特性。在Medical-Diff-VQA基准上，该模型在BLEU、ROUGE-L、CIDEr和METEOR评分上表现强劲，同时通过共享显著性掩码提供了内在的可解释性。这些结果支持将显著性条件生成与轻度预对齐作为纵向医学VQA推理的原则框架。我们的训练策略也展示了在生物医学中利用图像基础模型的范式的潜力：同时优化有监督和无监督的学习目标。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:16

# 注意力一致的纵向医学视觉问答：基于视觉基础模型的引导

来源：https://arxiv.org/html/2606.06534
Qianru Zhang, Georges El Fakhri, Xiaofeng Liu 耶鲁大学生物医学成像研究所，纽黑文，CT 06510 xiaofeng\.liu@yale\.edu

###### 摘要

纵向医学视觉问答（VQA）需要对当前时间点的图像与参考时间点的图像之间的解剖差异进行推理。我们针对胸部X光片提出了一种注意力引导的编解码器。与传统的直接对比不同，我们引入了一个轻量级仿射配准模块，通过将当前图像与参考图像进行共配准来减少无关运动，并辅以一个小型配准正则化项。配准后的图像对送入图像编码器，随后经过一个冻结的基于DINO的掩码生成器和一个可训练的适应性掩码生成器，生成应用于原始图像对的掩码。掩码后的图像对再次送入图像编码器，并与文本特征拼接，作为多模态Transformer解码器的输入，以生成最终答案。为促进训练稳定并明晰变化信号，受DINO-v3启发，我们增加了额外的辅助目标函数，包括掩码重建损失、成对Gram风格一致性损失和KoLeo均匀性损失，这些损失增强了表征的几何结构。在Medical-Diff-VQA基准测试上，该模型在BLEU、ROUGE-L、CIDEr和METEOR指标上取得了优异成绩，同时通过共享显著性掩码提供了内在的可解释性。这些结果支持将带有轻微预对齐的显著性条件生成作为医学VQA中纵向推理的一个原则性框架。我们的训练策略也展示了在生物医学中利用图像基础模型的一种范式的潜力：同时优化监督学习和无监督学习目标。

## 1 引言

医学视觉问答（VQA）旨在基于医学图像回答开放式临床问题，是连接视觉感知与临床决策支持的关键桥梁\[22 (https://arxiv.org/html/2606.06534#bib.bib22)\]。近年来，许多医学VQA方法依赖于预训练的视觉或多模态模型\[11 (https://arxiv.org/html/2606.06534#bib.bib11),19 (https://arxiv.org/html/2606.06534#bib.bib19),50 (https://arxiv.org/html/2606.06534#bib.bib50)\]。然而，这些工作大多聚焦于单个时间点，遵循自然图像VQA任务，而放射科医生通常需要比较当前和以往的影像，以定位变化、判断进展并调和明显的差异。

纵向视觉问答（Diff-VQA）通过将答案基于两个时间点获取的成对图像来实现这一工作流程，其中差异通常是关注信号而非绝对外观\[10 (https://arxiv.org/html/2606.06534#bib.bib10)\]。针对纵向胸部X光片的最新基准和方法通过提供成对图像、问题和以变化为中心的答案，使该任务具体化\[9 (https://arxiv.org/html/2606.06534#bib.bib9),28 (https://arxiv.org/html/2606.06534#bib.bib28),49 (https://arxiv.org/html/2606.06534#bib.bib49)\]。在这些资源的基础上，一些方法调整视觉-语言模型或设计任务特定架构以更好地捕捉时间差异，包括强调纵向预训练\[5 (https://arxiv.org/html/2606.06534#bib.bib5)\]、特征或像素空间的残差对齐\[25 (https://arxiv.org/html/2606.06534#bib.bib25)\]或区域级检索与混合\[48 (https://arxiv.org/html/2606.06534#bib.bib48)\]的先前工作。然而，这些方法并未明确鼓励不同时间点的注意力保持一致。此外，当前方法主要集中于监督式微调，引入无监督目标的潜力尚未被探索。而且，它们还面临深度学习黑箱特性导致的不透明性问题，这可能引发相关利益方的怀疑与担忧。

显著性图是一种用于解释深度学习模型的显著性可视化方法。在医学成像任务中，它们被广泛用于向临床医生提供可验证的证据，并增强模型的可解释性和可信度\[2 (https://arxiv.org/html/2606.06534#bib.bib2),22 (https://arxiv.org/html/2606.06534#bib.bib22)\]。然而，现有的医学VQA模型通常将显著性视为事后解释\[15 (https://arxiv.org/html/2606.06534#bib.bib15),18 (https://arxiv.org/html/2606.06534#bib.bib18),24 (https://arxiv.org/html/2606.06534#bib.bib24)\]，而非将其作为训练过程中的内在监督。在纵向设置中，这错失了一个机会，因为为了忠实地回答差异类型的问题，在两个时间点上对相应解剖结构的持续关注是至关重要的。

为弥补上述差距，我们引入了一个专门针对胸部X光片时间比较的注意力引导生成框架（图1 (https://arxiv.org/html/2606.06534#S2.F1)）。该方法有两个设计原则：(i) 使两幅图像在几何上可比较；(ii) 确保模型所声称关注的内容也决定了它在两个时间点上的注视位置，这受自然图像共注意力的启发\[42 (https://arxiv.org/html/2606.06534#bib.bib42),6 (https://arxiv.org/html/2606.06534#bib.bib6)\]。具体地，我们有如下模块：
∙\\bullet 微观预对齐。一个轻量级CNN模块对当前研究应用接近恒等式的仿射扭曲，以在不影响过拟合或消除真实变化的前提下，减轻小的姿势和尺度变化\[14 (https://arxiv.org/html/2606.06534#bib.bib14)\]。
∙\\bullet 双路径掩码生成。一条路径采用自监督视觉先验DINO模型\[31 (https://arxiv.org/html/2606.06534#bib.bib31)\]以提供鲁棒的病灶候选，另一条路径则使用适应性掩码生成器从编码器特征中生成样本适应性掩码，并通过在训练过程中变化的超参数λ\\lambda 控制其相对比例。
∙\\bullet 多粒度训练目标：语言建模损失LlmL\_{\\text{lm}} 优化答案质量；掩码一致性损失Lmask\_main/refL\_{\\text{mask\\\_main/ref}} 约束（图像特征与掩码特征的内积）与掩码图像特征之间的差异；轻量头预测损失Lpred\_main/refL\_{\\text{pred\\\_main/ref}} 实现掩码重建；Gram风格一致性鼓励不同就诊图像之间相似的补丁间关系和空间结构相似性；分布归一化正则化LKoLeoL\_{\\text{KoLeo}} 增强样本间的表征可分离性和开集鲁棒性。

主要贡献可总结如下：

∙\\bullet 我们正式化了一种简单而有效的方法，通过使用共享注意力掩码作为训练信号，在Diff-VQA中强制实现成对图像间的*空间一致性注意*。具体地，我们提出了一种即插即用的掩码生成器，它结合了DINO先验与适应性特征驱动掩码，无需额外标注，平衡了稳定性与样本适应性。
∙\\bullet 我们使用了一套全面的训练目标，涵盖分类与语言语义、表征对齐、空间对齐以及注意力对齐。
∙\\bullet 我们展示了有竞争力的性能，并在框架中融入了可解释性和可说明性，无需事后显著性分析，同时提供文本答案和病灶的视觉分析。这减轻了医疗从业人员的认知负担，同时缓解了因深度学习模型黑箱特性而产生的不信任，显示出显著的实用价值。

## 2 相关工作

参见图标题图1：我们的纵向医学VQA框架示意图。A. 首先，对主图像和参考图像进行近似恒等式的仿射预配准（带参数正则化LregL\_{\\text{reg}}），然后通过图像编码器提取特征。配准后的图像分别送入DINO和适应性掩码生成器；两者在共享权重下生成时间掩码，然后通过并集/融合函数和加权平均（权重λ\\lambda 和1−λ1-\\lambda）融合，生成适用于两个配准图像的变化感知共享掩码。掩码图像被重新编码，得到的两个时间点特征与问题编码使用特殊分隔符令牌顺序拼接，形成多模态前缀。最后，生成式解码器输出答案。B. 掩码一致性损失Lmask\_mainL\_{\\text{mask\\\_main}} 和Lmask\_refL\_{\\text{mask\\\_ref}} 约束掩码图像特征与掩码特征和图像特征乘积之间的距离。C. 语言建模损失LlmL\_{\\text{lm}} 直接监督答案生成。D. 轻量级MLP预测头通过Lpred\_mainL\_{\\text{pred\\\_main}} 和Lpred\_refL\_{\\text{pred\\\_ref}} 提供辅助监督，分别增强掩码的语义。E. 对完整特征和掩码特征应用Gram风格相似性约束（LgramL\_{\\text{gram}} 和Lgram\_maskL\_{\\text{gram\\\_mask}}），以强化主图像与参考图像之间相似的补丁结构。F. KoLeo正则化LKoLeoL\_{\\text{KoLeo}} 促进样本间的表征可分离性。

差异感知医学VQA。Medical-Diff-VQA\[10 (https://arxiv.org/html/2606.06534#bib.bib10),9 (https://arxiv.org/html/2606.06534#bib.bib9)\]提供了大规模成对胸部X光片基准，已成为主要评估数据集。在方法论上，早期方法通常采用来自通用图像差异描述（IDC）模型的迁移学习作为强基线：MCCFormers\[47 (https://arxiv.org/html/2606.06534#bib.bib47)\]利用Transformer编码器-解码器架构，对来自两幅图像的补丁进行多头注意力相似性比较。IDCPCL\[46 (https://arxiv.org/html/2606.06534#bib.bib46)\]通过自监督预训练和对比学习对齐视觉差异和文本，缓解标签稀缺问题。在医学应用中，EKAID\[10 (https://arxiv.org/html/2606.06534#bib.bib10)\]开创了差异Med-VQA的系统方法，引入了基于专家知识的图表示。后续方法沿着多条轨迹推进：RegioMix\[48 (https://arxiv.org/html/2606.06534#bib.bib48)\]采用区域级检索增强，在生成前检索与问题相关的图像区域。PLURAL\[5 (https://arxiv.org/html/2606.06534#bib.bib5)\]使用两阶段预训练的视觉-语言模型适应Diff-VQA：自然文本-图像到纵向胸部X光片；ReAl\[25 (https://arxiv.org/html/2606.06534#bib.bib25)\]将生成式响应与残差输入和特征残差对齐相结合，以显式突出两个时间阶段之间的差异；VED\[27 (https://arxiv.org/html/2606.06534#bib.bib27)\]引入了图像差异化嵌入，为每个主图像/参考图像学习一个独立的d维向量，并将其应用于所有视觉令牌，允许交叉注意力解码在整个流程中区分图像。

医学图像中的显著性与分割。该领域的研究显示出从可解释性可视化向空间监督和统一基础模型汇聚的趋势。在胸部X光片场景中，一项系统基准\[35 (https://arxiv.org/html/2606.06534#bib.bib35)\]显示多种显著性方法（包括Grad-CAM\[37 (https://arxiv.org/html/2606.06534#bib.bib37)\]）在病灶定位方面准确性有限且稳定性不足。Wollek等人\[44 (https://arxiv.org/html/2606.06534#bib.bib44)\]提出了一种基于注意力的Transformer方法，用于气胸分类模型中的显著性生成。在分割模型方面，nnU-Net\[13 (https://arxiv.org/html/2606.06534#bib.bib13)\]通过其自我配置过程为多模态任务提供了稳健基线。后续将U-Net与Transformer集成或替代的方法（TransUNet\[4 (https://arxiv.org/html/2606.06534#bib.bib4)\], Swin-UNet\[3 (https://arxiv.org/html/2606.06534#bib.bib3)\], UNETR\[8 (https://arxiv.org/html/2606.06534#bib.bib8)\]）进一步增强了全局依赖和多尺度建模。同时，通用分割基础模型正快速进入医学应用：MedSAM\[26 (https://arxiv.org/html/2606.06534#bib.bib26)\]在百万级医学数据集上展示了零/少样本泛化能力，而SAM2\[33 (https://arxiv.org/html/2606.06534#bib.bib33)\]和MedSAM2\[51 (https://arxiv.org/html/2606.06534#bib.bib51)\]将可提示分割扩展到二维/三维和视频领域。在表征骨干方面，基于DINO的模型正成为医学分割和显著性的坚实基础。

放射学中的DINO骨干。DINOv2\[29 (https://arxiv.org/html/2606.06534#bib.bib29)\]已被用于无训练的可变形医学图像配准（DINO-Reg），在OncoReg挑战中荣获第一名\[39 (https://arxiv.org/html/2606.06534#bib.bib39)\]。这证明了从自然图像学到的语义知识可以泛化到医学数据中的跨器官几何对齐场景。对于胸部X光片等单模态数据，RAD-DINO在分类/分割和图像-文本对齐任务中展示了强竞争力\[31 (https://arxiv.org/html/2606.06534#bib.bib31)\]。对于MRI等多模态场景，MM-DINOv2引入了多模态补丁嵌入和全模态掩码DINOv2\[36 (https://arxiv.org/html/2606.06534#bib.bib36)\]。此外，集成DINOv2表征的可解释性工作（例如，将ViT-CX因果解释与自监督特征结合）为临床可追溯性提供了证据\[12 (https://arxiv.org/html/2606.06534#bib.bib12)\]。基于DINOv3\[38 (https://arxiv.org/html/2606.06534#bib.bib38)\]，SegDINO\[45 (https://arxiv.org/html/2606.06534#bib.bib45)\]使用冻结的DINOv3配合轻量级解码器范式，在多个医学分割基准上实现了强竞争力；而MedDINOv3\[20 (https://arxiv.org/html/2606.06534#bib.bib20)\]通过多尺度令牌聚合和在387万张CT切片上的领域适应性预训练，达到或超越了分割任务上的当前最优水平。总体而言，DINOv2提供了稳健的通用表征和跨任务可迁移性，而DINOv3进一步增强了高分辨率医学分割。

## 3 方法

该流程包含两个组件：一个微观图像配准模块和一个关键词条件显著性提取模块，随后是图像-文本编码器和多模态解码器。

### 3.1 微观图像配准模块

给定主图像Imain∈R3×H×WI\_{\\text{main}}\\in\\mathbb{R}^{3\\times H\\times W} 和参考图像Iref∈R3×H×WI\_{\\text{ref}}\\in\\mathbb{R}^{3\\times H\\times W}，一个浅层CNN预测二维仿射参数Θ=[At]∈R2×3\\Theta=[A\\;\\mathbf{t}]\\in\\mathbb{R}^{2\\times 3}。我们仅使用可微分网格采样器对主图像进行扭曲：

x=Axtgt\+t。\\mathbf{x}=A\\,\\mathbf{x}\_{\\mathrm{tgt}}+\\mathbf{t}. (1)

为了保持变换接近恒等式并避免消除真实的解剖变化，我们对

基于视觉基础模型引导的注意力一致性纵向医学视觉问答

相似文章

自我演进的视觉提问器

Brain-IT-VQA：从大脑信号到答案

Stateful Visual Encoders for Vision-Language Models

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

Aloe-Vision：面向医疗的鲁棒视觉-语言模型

提交意见反馈