REVEAL++:面向阿尔茨海默病风险视觉-语言视网膜建模的可微分表型分组

arXiv cs.AI 论文

摘要

本文介绍了REVEAL++,一种用于视觉-语言对比学习的可微分表型分组方法,应用于视网膜眼底图像和临床风险叙述,以预测阿尔茨海默病风险,其性能优于离散分组基线方法。

arXiv:2606.19522v1 公告类型:新的 \n摘要:视网膜为神经退行性疾病提供了一个非侵入性窗口,能够捕捉与未来认知衰退风险相关的细微结构模式。像REVEAL这样的视觉-语言对齐框架已经表明,将视网膜眼底图像与结构化临床风险叙述配对,可以改善阿尔茨海默病(AD)的早期预测。这些方法中的一个关键设计选择是使用表型分组,在对比学习中将具有相似风险概况的个体视为多正对。然而,现有方法将表型相似性操作化为离散构造,依赖硬分组分配,从而施加了严格的监督,并将分组形成与表示学习分离。我们提出了一种在对比学习中对表型结构进行连续建模的方法。我们不是将样本分配到固定簇中,而是通过视网膜图像和风险概况中模态内嵌入相似性导出的可微分加权函数来建模主体间相似性。这些权重通过连续聚合算子定义软多正关系,从而实现对疾病风险谱系的分级监督。我们进一步引入了一个软目标对比目标,以端到端的方式联合学习跨模态对齐和表型结构。在UK Biobank视网膜成像数据上进行阿尔茨海默病发病预测评估,所提出的框架始终优于离散分组对比学习和标准的视觉-语言基线。通过将表型相似性视为可学习的连续信号而非固定的分组规则,我们的方法为从多模态视网膜和临床数据进行群体规模的神经退行性疾病风险建模提供了原则性和稳健的基础。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:30

# REVEAL++:用于阿尔茨海默病风险视觉-语言视网膜建模的可微分表型分组
来源:https://arxiv.org/html/2606.19522
11机构:弗吉尼亚大学,夏洛茨维尔,弗吉尼亚州,美国 22机构:J. Crayton Pruitt 家族生物医学工程系,赫伯特·韦特海姆工程学院,佛罗里达大学,盖恩斯维尔,佛罗里达州,美国 Seowung Leem,Zeyun Zhao,Ruogu Fang 通讯作者:[email protected]

###### 摘要

视网膜为神经退行性疾病提供了一个无创的窗口,能够捕捉与未来认知衰退风险相关的细微结构模式。REVEAL 等视觉-语言对齐框架已表明,将视网膜眼底图像与结构化临床风险叙述配对,能够改善阿尔茨海默病(AD)的早期预测。这些方法的一个关键设计选择是使用表型分组,即在对比学习中将具有相似风险特征的个体视为多正样本对。然而,现有方法将表型相似性作为离散构造来操作,依赖硬分组分配,从而施加刚性监督,并将分组形成与表示学习脱钩。我们提出了一种在对比学习中对表型结构进行连续建模的方法。我们不将样本分配到固定聚类,而是将个体间相似性建模为一种可微分的加权函数,该函数来源于视网膜图像和风险特征中模态内嵌入的相似性。这些权重通过连续聚合算子定义软多正样本关系,从而实现反映疾病风险谱状性质的渐进式监督。我们进一步引入了一个软目标对比目标函数,以端到端方式联合学习跨模态对齐和表型结构。在用于预测突发性 AD 的英国生物银行视网膜成像数据上评估,所提框架始终优于基于离散分组的对比学习和标准视觉-语言基线方法。通过将表型相似性作为可学习的连续信号而非固定分组规则,我们的方法为基于多模态视网膜和临床数据的人口规模神经退行性风险建模提供了原则性且稳健的基础。

## 1 引言

参见图片说明图 1:所提出的用于群体感知对比学习的可微分表型加权框架的架构。图像和文本嵌入通过相似性加权的多正样本对比损失进行对齐,其中连续的表型权重取代了硬分组,以模拟阿尔茨海默病风险的异质性谱

阿尔茨海默病(AD)是一种进行性神经退行性疾病,其特点是漫长的临床前阶段,在此期间病理变化在临床症状出现之前积累[6 (https://arxiv.org/html/2606.19522#bib.bib1)]。脑成像和血浆生物标志物的进展已显著提高了检测疾病相关病理的能力。然而,这些方法可能成本高昂、具有侵入性,或者不适用于大规模人群筛查。因此,可扩展且无创的互补模态在早期风险分层中发挥着重要作用。视网膜已成为这样一种模态,因为其结构和微血管与中枢神经系统具有发育和生理上的联系,并且与 AD 相关的神经退行性和血管性过程有关[3 (https://arxiv.org/html/2606.19522#bib.bib2)]。与此同时,包括心脏代谢健康和睡眠模式在内的全身性和生活方式相关风险因素,捕捉了在诊断前数十年就促成痴呆风险的纵向暴露[4 (https://arxiv.org/html/2606.19522#bib.bib3),2 (https://arxiv.org/html/2606.19522#bib.bib4)]。这些信号并非作为独立的诊断标志物,而是提供互补的人群水平信息,有助于表征早期疾病易感性。

视觉-语言模型(VLM)的最新进展已能够通过对比对齐跨异质数据模态进行联合表示学习。受 CLIP 风格架构的启发,医学 VLM 越来越多地适应于视网膜成像,利用大规模预训练来学习有临床意义的视觉表示[7 (https://arxiv.org/html/2606.19522#bib.bib17),17 (https://arxiv.org/html/2606.19522#bib.bib18),21 (https://arxiv.org/html/2606.19522#bib.bib9)]。在此范式基础上,REVEAL 框架将视网膜眼底图像与源自结构化健康数据的个体化临床风险叙述对齐,实现了神经退行性风险的多模态建模[13 (https://arxiv.org/html/2606.19522#bib.bib5)]。REVEAL 的一个核心创新是群体感知对比学习(GACL),它鼓励具有相似表型特征的受试者在训练期间充当多正样本对。这种策略提高了对个体水平噪声的鲁棒性,并促进了共享疾病相关结构的学习,与单模态和标准的成对对比方法相比,改善了下游 AD 风险预测。

尽管有这些优势,现有 GACL 公式中的表型分组是通过离散相似性阈值构建的,隐含地假设个体属于良好分离的风险类别。然而,从生物学角度讲,神经退行性风险沿着连续且重叠的轨迹演变,这些轨迹由异质的遗传、血管、代谢和生活方式因素塑造。个体通常跨多个表型轴表现出部分相似性,而不是属于单一同质群体。因此,硬分组分配可能引入人为边界,无法反映疾病易感性的渐进性和谱样性质,同时阻止分组过程本身在表示学习期间适应。

在这项工作中,我们引入了一个可微分的表型加权框架,将个体间相似性视为多模态对比学习中的连续监督信号。我们不依赖基于阈值的聚类,而是直接从视网膜图像嵌入和临床风险特征嵌入计算相似性结构,并通过软聚合算子组合,以产生连续的群体成员权重。这些权重定义了一个软多正样本对比目标函数,其中监督强度根据表型接近度平滑变化。通过将表型关系建模为类似注意力的可微分过程,所提框架能够联合学习表示对齐和种群水平结构,更忠实地捕捉神经退行性风险背后的连续和异质性生物变异。

我们的贡献有三方面:

- • **可微分表型加权**:我们用源自视网膜和临床嵌入的连续表型相似性权重替换群体感知对比学习中的硬阈值分组,从而实现平滑的数据驱动队列建模,更好地捕捉异质性阿尔茨海默病风险。
- • **软多正样本对比学习**:我们引入了一个软目标对比目标函数,将表型相似性纳入跨模态对齐,从而实现渐进式多正样本监督,而非二元对分配。
- • **从视网膜成像进行最先进的阿尔茨海默病风险预测**:我们在英国生物银行的视网膜成像上实现了最先进的突发性阿尔茨海默病预测性能,优于现有的视觉-语言和群体感知对比学习方法。

## 2 方法

### 2.1 REVEAL++ 概述

REVEAL 在群体感知对比目标下学习视网膜眼底图像和结构化临床报告的联合图像-文本表示。给定一个小批量中的 N 个受试者,每个受试者 p 与一张视网膜图像和一份临床报告相关联。图像和文本编码器产生模态特定的嵌入,这些嵌入被投影到一个共享的潜在空间中。为了将表型结构纳入对比监督,我们计算捕捉受试者之间视网膜图像嵌入和风险特征相似性的模态内相似性矩阵。这些相似性被转换为一个可微分的表型加权掩码 W ∈ [0,1]^{N×N},它在多正样本对比损失中充当软成对目标矩阵。

### 2.2 临床报告生成

为了实现视网膜图像与系统性风险因素在视觉-语言框架内的对齐,我们将结构化问卷数据转换为与预训练文本编码器兼容的合成临床叙述。使用 LLaMA-3.1 API 作为文本生成引擎,每个参与者的表格风险因素特征被映射为标准化的临床风格摘要[9 (https://arxiv.org/html/2606.19522#bib.bib7)]。对于每个受试者,LLM 接收一个预定义的文档模板、受试者的结构化人口统计学、行为、认知和生活方式变量,以及明确的指令,要求生成一份简洁的报告,而不推断缺失值。该模板改编自 CARE 临床病例报告指南的“患者信息”部分,确保与既定医学文献惯例一致[8 (https://arxiv.org/html/2606.19522#bib.bib8)]。为了最小化变异性并保持数值保真度,提示强制要求表格条目与模板字段之间一一对应,缺失值被明确标记而非插补。这种受控的翻译过程产生了语义丰富的文本表示,使得结构化健康信息能够被嵌入到共享的多模态潜在空间中。

### 2.3 图像和文本编码器

令 x_p 表示受试者 p 的视网膜图像,t_p 表示关联的临床报告。图像编码器 E_I(·) 和文本编码器 E_T(·) 产生模态特定的嵌入。在我们的实现中,我们将 E_I 实例化为 RETFound[21 (https://arxiv.org/html/2606.19522#bib.bib9)],将 E_T 实例化为 GatorTron[19 (https://arxiv.org/html/2606.19522#bib.bib10)]。每个编码器后接一个轻量级线性投影层,以将特征映射到维度为 d 的共享嵌入空间。

z_p^I = E_I(x_p),  z_p^T = E_T(t_p)。  (1)

两个嵌入都被投影到共享的 d 维空间并进行 l2 归一化,得到 \hat{z}_p^I = z_p^I / \|z_p^I\|_2 和 \hat{z}_p^T = z_p^T / \|z_p^T\|_2。一个可学习的对数缩放参数 s 控制对比温度,其中 τ = exp(-s)。

### 2.4 用于表型分组的模态内相似性

为了捕捉受试者之间的表型相似性,我们基于归一化表示之间的余弦相似性构建模态内相似性矩阵。令 \hat{z}_p^I 表示图像编码器产生的归一化图像嵌入,\hat{z}_p^T 表示受试者 p, q 的归一化文本衍生风险特征嵌入。

S_{ii}(p,q) = ⟨\hat{z}_p^I, \hat{z}_q^I⟩  (2)
S_{tt}(p,q) = ⟨\hat{z}_p^T, \hat{z}_q^T⟩  (3)

这里,S_{ii} 捕捉学习的视网膜图像嵌入中的相似性,而 S_{tt} 捕捉临床报告嵌入之间的相似性。

### 2.5 可微分表型加权

我们使用带有阈值 τ_F, τ_T 和可学习陡峭参数 g_F, g_T 的 Sigmoid 门控将这些相似性转换为软成员信号:

a_F(p,q) = σ((S_{ii}(p,q) - τ_F) / g_F),  a_T(p,q) = σ((S_{tt}(p,q) - τ_T) / g_T),  (4)

其中 σ(·) 表示逻辑 Sigmoid 函数。最后,我们使用可微分的概率联合运算符组合这两个信号,以获得表型加权分数

W_{pq} = 1 - (1 - a_F(p,q)) (1 - a_T(p,q)),  W_{pq} ∈ [0,1]。  (5)

具有较大 W_{pq} 的对被视为在表型空间中更强地对齐,并在多正样本对比目标中获得更高的正样本权重。

### 2.6 表型相似性加权的多正样本对比损失

图像和文本嵌入之间的跨模态相似性定义为:

S_{it}(p,q) = ⟨\hat{z}_p^I, \hat{z}_q^T⟩。  (6)

使用温度缩放和可学习对数温度参数 s 以及可学习偏置项 β 计算对数几率:

ℓ_{pq} = S_{it}(p,q) / τ - β,  τ = exp(-s)。  (7)

我们优化一个软目标多正样本对比目标函数:

L_{MP} = (1/N^2) ∑_{p=1}^N ∑_{q=1}^N [ W_{pq} log(1 + exp(-ℓ_{pq})) + (1 - W_{pq}) log(1 + exp(ℓ_{pq})) ]。  (8)

当 W_{pq} 接近 1 时,对 (p,q) 被视为正匹配;当 W_{pq} 接近 0 时,被视为负对。中间值允许基于表型相似性的软监督。

## 3 实验

### 3.1 数据集与预处理

表 1:跨数据分割的队列特征。根据已建立的流行病学和生物标志物证据(将可改变的暴露与阿尔茨海默病和痴呆风险联系起来),从英国生物银行[5 (https://arxiv.org/html/2606.19522#bib.bib6)]基线评估中提取了全面的人口统计学、行为、认知和生活方式变量,并将其编译为候选风险因素[14 (https://arxiv.org/html/2606.19522#bib.bib13),2 (https://arxiv.org/html/2606.19522#bib.bib4),18 (https://arxiv.org/html/2606.19522#bib.bib12),10 (https://arxiv.org/html/2606.19522#bib.bib14),11 (https://arxiv.org/html/2606.19522#bib.bib15),16 (https://arxiv.org/html/2606.19522#bib.bib16)]。这些因素包括与淀粉样蛋白和 tau 病理、睡眠障碍、心脏代谢健康以及其他可改变的神经退行性决定因素相关的因素。

来自英国生物银行初始评估访问的彩色眼底照片(CFP)用于基于图像的建模。图像经过自动质量控制以排除低质量扫描,仅保留高质量的 CFP 用于后续分析[22 (https://arxiv.org/html/2606.19522#bib.bib23)]。预处理后的 CFP 输入到 RETFound 初始化的视觉编码器中,该编码器在训练期间进行微调[21 (https://arxiv.org/html/2606.19522#bib.bib9)]。每张图像被调整大小以匹配预训练 RETFound 编码器的输入分辨率,并使用与其预训练设置一致的标准化通道均值和标准差进行归一化。为了确保一致的解剖...

相似文章

揭示VLM可解释的故障模式

arXiv cs.AI

本文介绍了Revelio,这是一个通过搜索离散概念组合来系统性地发现视觉语言模型(VLM)中可解释故障模式的框架。应用于自动驾驶和室内机器人领域,它揭示了此前未报道的、可能导致碰撞或安全危险的漏洞。

KODA:面向视觉-语言基础模型的对比表示比较与对齐

arXiv cs.LG

本文介绍了KODA(Kernel Optimization for Discrepancy Analysis,差异分析核优化),一种基于核的框架,用于比较和对齐视觉-语言模型表示,通过识别在CLIP、SigLIP和BLIP等模型中聚类方式不同的样本子集。该方法使用对比嵌入聚类和随机低维近似,能够扩展到大型数据集,同时提供表示之间可解释的结构差异。

多模态视觉语言模型中的人类区域适应性

Hugging Face Daily Papers

本文介绍了人类区域适应性,这是一种优化视觉语言模型以适应特定区域情境同时保持全局泛化能力的范式。作者提出了GG-EZ,一种利用区域数据过滤和模型合并的适应方法,在三种视觉语言架构上为东南亚地区展示了5-15%的文化相关性提升。

通过遗忘实现公平的认知障碍检测

arXiv cs.LG

提出了一种多模态框架,用于从语音中公平地检测轻度认知障碍,通过梯度反转实现遗忘,以减少人口统计学偏差并提升各子群体的性能。