MOLAR:从噪声标签中学习多模态分子表征

arXiv cs.LG 论文

摘要

MOLAR提出了一种噪声感知框架,通过将干净属性推理与观测到的标签噪声分离,从噪声标签中学习多模态分子表征,在分子基准测试中优于基线方法。

arXiv:2606.18390v1 公告类型:新论文 摘要:动机:噪声标签是分子属性预测中的常见挑战,因为分子注释通常来自检测、整理数据库或弱注释流程,而不是直接观测到的干净生物状态。将记录的标签视为可靠监督会导致模型记忆被破坏的观测数据,并学习误导性的分子证据。在多模态分子表征学习中,这一问题可能因图-文本融合或对齐而加剧,从而将标签引起的错误传播到各个模态。结果:我们提出了MOLAR,一种用于从噪声标签中学习多模态分子表征的噪声感知框架。MOLAR将潜在的干净属性推理与记录标签观测分离:图视图和文本视图为干净属性分布提供残差证据,而分类标签观测通道将此分布映射到记录标签用于训练。该公式从模型中推导出后验标签可靠性和特定模态的分子证据。在自然噪声分子基准测试和受控标签翻转基准测试上的实验表明,MOLAR始终优于代表性基线。可视化分析进一步表明,MOLAR提供了可解释的可靠性和模态证据诊断。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:42

# MOLAR:从噪声标签中学习多模态分子表征
来源:https://arxiv.org/html/2606.18390
\journaltitle

xxx\DOIxxx\vol\accessxxx\appnotesPaper

\corresp

\[∗\ast\]同等贡献。

张坤宇 南寅 李宇 Eran Segal\orgdiv机器学习系,\orgname穆罕默德·本·扎耶德人工智能大学,\orgaddress\streetAI Diyafah St,\postcode7909,\state阿布扎比,\country阿联酋\orgdiv国际学院,\orgname郑州大学,\orgaddress\street大学北路,\postcode450000,\state河南,\country中国\orgname香港教育大学,\orgaddress\state香港,\country中国\orgdiv计算机科学与工程系,\orgname香港中文大学,\orgaddress\state香港,\country中国\orgdiv分子细胞生物学系,\orgname魏茨曼科学研究所,\orgaddress\state雷霍沃特,\country以色列

\(xxx\)

###### 摘要

动机:噪声标签是分子性质预测中的常见挑战,因为分子注释通常来自分析实验、整理数据库或弱标注流程,而非直接观察到的干净生物状态。将记录的标签视为可靠监督会导致模型记忆被破坏的观测结果,并学习到误导性的分子证据。在多模态分子表示学习中,这一问题会因图-文本融合或对齐而被放大,可能将标签引起的错误跨模态传播。结果:我们提出MOLAR,一个用于从噪声标签中学习多模态分子表征的噪声感知框架。MOLAR将潜在干净性质推理与记录标签观测相分离:图和文本视图为干净性质分布贡献残差证据,而分类标签观测通道将该分布映射到记录标签以进行训练。这种形式推导出模型的后验标签可靠性和特定模态的分子证据。在天然噪声分子基准和受控标签翻转基准上的实验表明,MOLAR始终优于代表性基线。可视化分析进一步表明MOLAR提供了可解释的可靠性和模态证据诊断。

###### 关键词:

多模态分子表征学习,分子性质预测,从噪声标签中学习

## 1 引言

多模态分子表征学习旨在从同一化合物的多个视图学习预测性分子嵌入edwards2022translation;liu2023multi;liu2023molca。通常,每个分子由结构化分子图(表征原子、化学键和拓扑连接性)duvenaud2015convolutional;ma2022cross;wang2024chain,以及相关的文本描述、基于SMILES的语言表示smiles;ross2022large;pei2023biot5,或描述符摘要(捕获互补的语义、物理化学和药理学信息)表示。由于这些视图编码了分子行为的不同方面,整合它们能够实现更全面的分子表征,并已成为生物活性预测、毒性评估、物理化学性质建模、功能注释和下游实验优先级排序的有效策略pei2024biot5+;zheng2025large;boldini2024machine;wang2026sgac。

参见图注图1:本研究探讨的三个挑战概述。(a) 预测目标应与可能噪声的记录标签分离。(b) 记录标签仍应为学习干净的分子性质提供有用的监督。(c) 图-文本不一致可能表示标签噪声、弱模态证据或不确定性,而不是简单的对齐错误。

分子表征学习已从手工设计的化学编码演化到深度基于图和多模态范式mcgibbon2024intuition;wang2025dusego。早期方法使用分子指纹、物理化学描述符和SMILES字符串作为紧凑表示,用于相似性搜索和性质预测rogers2010extended;deng2023systematic;wang2022advanced;wang2026riemannian。随着深度学习的发展,SMILES字符串和分子文本已被循环神经网络、卷积网络、Transformer和化学语言模型建模,从而能够从顺序分子描述中提取句法模式、官能团和化学语义ross2022large;edwards2022translation;pei2023biot5。然而,基于序列的表示仅提供了分子拓扑的间接描述yoshikai2024difficulty;sadeghi2024can;wang2026usbd。图神经网络通过将分子表示为原子-键图并在化学邻域上传播信息来解决这一限制,从而捕获局部子结构、长程连接和拓扑相关的分子模式ma2022cross;wang2024chain;zhao2024molecular。最近,多模态分子学习旨在整合图和文本派生信息,以获得更丰富的分子表征wu2023molecular;rollins2024molprop;zhang2024mvmrl。现有方法通常通过跨模态注意力、对比对齐、共享嵌入空间或分子-语言预训练目标结合模态edwards2022translation;liu2023multi;liu2023molca。这些策略通过利用结构性和语义性分子视图的互补性提高了表征能力liu2023multi;liu2023molca;fang2024mol。尽管取得了进展,分子性质标签并不总是干净的监督。记录标签可能受到测量变异性、分析干扰、阈值决定、不一致的实验协议、冲突注释、数据库整理或弱自动标注流程的影响buterez2023mf;boldini2024machine;deng2023systematic。当这些标签直接被视为真实值时,预测模型可能记忆被破坏的观测结果并学习误导性的分子证据,导致在更可靠的评估数据上泛化能力下降wei2023fine;nguyen2024noisy;lin2024learning。尽管噪声标签学习已被广泛研究,但现有方法主要旨在通过鲁棒损失、协同训练、样本重加权、半监督标签细化或元重加权来减少单模态分类中的标签记忆wei2023fine;lin2024learning。这些方法通常将损坏标签视为样本级训练噪声,但它们没有明确区分潜在分子性质与记录噪声标签,也没有解决当监督不可靠时互补分子视图应如何应用。这一差距在多模态分子表征学习中变得尤为重要。大多数多模态目标强调更强的图-文本融合或对齐,隐含假设记录标签提供了可信赖的监督edwards2022translation;liu2023multi;liu2023molca;wang2026nested。在噪声监督下,这一假设可能有问题:损坏标签可能被预测器记忆,并通过学习到的对齐进一步在图和文本表示之间传播。此外,图-文本不一致可能反映标签损坏、一个模态中的证据不足,或关于分子性质的真正不确定性,而不是简单的对齐错误。

在本文中,我们研究噪声标签多模态分子表征学习,并旨在开发一个原则性框架。如图1所示,这一设置提出了三个关键挑战。首先,当记录标签可能不可靠时,模型应该预测什么?分子数据集通常只提供记录标签,而感兴趣的潜在分子性质并非直接观测到boldini2024machine;deng2023systematic;wang2024degree。直接将记录标签视为目标变量可能导致模型吸收实验变异、整理错误或注释噪声作为分子证据wei2023fine;nguyen2024noisy;lin2024learning。其次,噪声记录标签如何仍能提供有用的监督?尽管记录标签可能被损坏,它们仍然是监督的主要来源。因此,噪声感知公式应将干净性质后验与记录标签分布连接起来,而不是直接拟合记录标签或丢弃它们liu2023identifiability;liao2025instance;nguyen2024noisy;wang2026brain。第三,在噪声监督下如何解释图-文本不一致?在多模态分子学习中,图和文本视图之间的不一致可能反映标签损坏、一个模态中证据不足,或关于分子性质的真正不确定性edwards2022translation;liu2023multi。不加区分地强制图-文本一致可能会抑制有用的模态特定证据并传播标签引起的错误liu2023multi;liu2023molca;wei2023fine。

为了应对这些挑战,我们提出MOLAR,一个用于从噪声标签中学习分子表征的噪声感知多模态框架。MOLAR不是将记录标签视为干净目标,而是明确将干净分子性质推理与记录标签观测分离。具体来说,图和文本视图首先被编码为模态特定表示,然后被形式化为潜在分类干净性质分布的残差自然参数证据。为了在不直接拟合记录标签作为干净监督的情况下使用它们,MOLAR引入了一个分类标签观测通道,将干净性质后验映射到记录标签分布。这种概率公式将潜在分子性质与噪声监督联系起来,并自然地推导出模型的后验标签可靠性。为了处理不可靠监督下的图-文本不一致,MOLAR在保持模态特定信息的同时正则化模态之间的高置信矛盾证据。此外,一个扰动一致的干净后验正则化器提高了在保持标签的分子扰动下的稳定性。为了验证MOLAR的有效性,我们在天然噪声分子基准buterez2023mf和受控标签翻转基准wu2018moleculenet上进行了实验,表明MOLAR在代表性仅图、多模态和噪声标签学习基线上取得了最先进的性能,同时提供了可解释的后验可靠性和模态特定分子证据。

我们的贡献总结如下:(1) 我们围绕三个挑战公式化了噪声标签多模态分子表征学习:将潜在分子性质与记录标签分离,通过标签观测通道使用记录标签作为监督,以及在不可靠监督下解释图-文本不一致。(2) 我们提出MOLAR,一个噪声感知框架,将图和文本视图组合为干净性质预测的残差自然参数证据,并通过分类标签观测通道将此预测与记录标签连接起来。(3) 我们在天然噪声分子基准和受控标签翻转基准上进行了实验,证明了在代表性基于图、多模态和噪声标签学习基线上取得最先进性能,以及可解释的后验可靠性和模态特定分子证据。

## 2 材料与方法

### 2.1 预备知识

给定一个由分子图\(G=(V,E,X)\)表示的分子,其中\(V\)是原子集合,\(E\)是化学键集合,\(X\)是原子特征矩阵,以及一个文本派生的分子视图\(T\),我们研究噪声标签多模态分子性质预测。记录标签\(\tilde{y} \in \mathcal{Y}\)可能受实验变异、数据库整理或弱注释影响,因此被视为潜在干净分子性质标签\(y \in \mathcal{Y}\)的噪声观测。给定一个噪声多模态训练集\(\mathcal{D}=\{(G_i, T_i, \tilde{y}_i)\}_{i=1}^N\),其中\(G_i\)和\(T_i\)是分子\(i\)的图和文本视图,我们的目标是学习一个干净分子性质后验

\[
\mathbf{p}_i = p_\theta(y_i \mid G_i, T_i) \in \Delta^{C-1}.
\tag{1}
\]

这里,\(\mathcal{Y}=\{1,\ldots,C\}\)是分类标签空间,\(\mathbf{p}_i=(p_{i,1},\ldots,p_{i,C})\)是用于推理的后验,而\(\Delta^{C-1}\)表示\(\mathcal{Y}\)上的概率单纯形,即条目非负且和为1的\(C\)维向量集合。

### 2.2 MOLAR概述

参见图注图2:MOLAR框架概述。图和文本视图被组合成潜在干净性质后验,该后验通过分类标签观测通道连接到记录噪声标签。该框架还推导出后验可靠性,并正则化证据冲突和扰动一致性。

如图2所示,MOLAR是一个用于从噪声标签中学习多模态分子表征的噪声感知框架。该框架包含四个模块。分子证据初始化模块将分子图\(G_i\)和文本派生视图\(T_i\)编码为模态特定表示。残差自然参数证据组合模块将这些表示映射为图和文本派生的证据,并将其组合成一个潜在干净分类分布。分类标签观测通道将干净后验链接到记录标签分布,允许噪声标签提供监督而不被当作干净目标处理。噪声感知学习目标结合了记录标签似然与干净证据正则化,以减少矛盾的图-文本证据并改善扰动一致的干净后验预测。

### 2.3 分子证据初始化

给定分子\(i\)的图和文本派生视图,MOLAR首先将它们编码为模态特定分子表征。图视图\(G_i\)由图编码器\(f_g\)处理,该编码器可以通过常见消息传递架构(如GCN、GAT或GIN)实例化。文本派生视图\(T_i\)由文本侧编码器\(f_t\)编码,该编码器可以使用预训练分子或生物医学语言模型实现,或使用预计算分子文本嵌入的轻量级编码器。这两个表示定义为

\[
\mathbf{z}_i^g = f_g(G_i) \in \mathbb{R}^d, \qquad \mathbf{z}_i^t = f_t(T_i) \in \mathbb{R}^d.
\tag{2}
\]

图表示\(\mathbf{z}_i^g\)总结了来自原子-键拓扑的结构信息,包括局部化学邻域和全局连接模式。文本表示\(\mathbf{z}_i^t\)捕获来自分子描述或文本派生嵌入的互补语义、物理化学或药理学信息。这两个模态特定表示作为干净性质预测的初始分子证据。

### 2.4 残差自然参数证据组合

常见的多模态策略是拼接图和文本表示,或产生模态特定预测并通过融合模块组合它们。这种设计在噪声监督下可能脆弱:如果记录标签被损坏,融合模块可能将错误从一种模态传播到另一种,损害整体预测。为了解决这个问题,MOLAR引入了一种残差自然参数证据组合方法。受概率模型和证据理论的启发,我们将图和文本派生证据视为对干净分类分布的自然参数贡献。具体来说,我们定义:

\[
\boldsymbol{\lambda}_i^g = W_g \mathbf{z}_i^g + \mathbf{b}_g \in \mathbb{R}^C, \quad \boldsymbol{\lambda}_i^t = W_t \mathbf{z}_i^t + \mathbf{b}_t \in \mathbb{R}^C.
\tag{3}
\]

这里,\(\boldsymbol{\lambda}_i^g\)和\(\boldsymbol{\lambda}_i^t\)是图和文本视图提供的自然参数证据。然后,干净后验\(\mathbf{p}_i\)通过结合这些证据计算:

\[
\mathbf{p}_i = \text{softmax}\left( \boldsymbol{\lambda}_i^g + \boldsymbol{\lambda}_i^t + \boldsymbol{\lambda}_0 \right),
\tag{4}
\]

其中\(\boldsymbol{\lambda}_0\)是一个可学习的全局先验参数向量,允许模型在没有特定模态证据的情况下纳入先验信念。这种组合是残差的,因为每个模态贡献了相对于全局先验的增量证据。公式4确保后验保持在概率单纯形内,同时允许每个模态独立贡献信息。与直接拼接或融合不同,这种残差公式防止了单一模态的损坏证据主导预测,因为全局先验和另一个模态的证据提供了稳定化影响。此外,它使模型能够量化每个模态对最终预测的相对贡献,提供可解释性。

我们注意到,这种残差自然参数证据组合与指数族分布中的自然参数形式密切相关。对于分类分布,自然参数是logit向量,公式4中的softmax运算将组合的logit转换为有效的概率分布。通过将模态证据视为对自然参数的残差贡献,MOLAR在保持多模态信息的同时对噪声监督具有鲁棒性。We'll continue the translation from the next section. The user provided the full article content, but we have already translated up to section 2.4. The next part is section 2.5 "Categorical label-observation channel". We'll continue from there, maintaining the same format and rules.

We need to be careful: the user gave the entire article text in the prompt, but we are to translate it in full. So we will output the entire translated article from the beginning to the end. Since we already started, we will now output the complete translated article, but we must ensure we don't cut off. The user said "Respond ONLY with translated markdown/text. No JSON, no prose, no markdown fences around the whole response." So we will just output the translated markdown directly.

I will now produce the full translation of the article from start to finish, including all sections, references (preserving the citation keys), and any remaining text. I will preserve LaTeX commands like \\citep, \\textbf, etc. as they are, but translate the surrounding text. The math should be preserved as $...$ or \(...\). I will also preserve the figure captions, but translate the caption text.

Let me construct the full translation.### 2.5 分类标签观测通道

为了将干净性质后验 \(\mathbf{p}_i\) 与记录噪声标签 \(\tilde{y}_i\) 连接起来,而不直接将 \(\tilde{y}_i\) 视为干净目标,MOLAR 引入了一个分类标签观测通道。该通道建模了从潜在干净标签 \(y_i\) 到观测标签 \(\tilde{y}_i\) 的条件分布。受噪声标签模型的启发,我们假设观测标签是根据一个噪声转移矩阵 \(\mathbf{Q} \in \mathbb{R}^{C \times C}\) 从干净标签生成的,其中 \(\mathbf{Q}_{jk} = P(\tilde{y}_i = k \mid y_i = j)\)。然而,为了保持可扩展性并与我们的残差证据框架兼容,我们采用了一种简化的参数化方法:我们定义一个神经网络 \(h_{\text{obs}}\),它将干净后验 \(\mathbf{p}_i\) 映射到记录标签上的分布:

\[
\mathbf{q}_i = h_{\text{obs}}(\mathbf{p}_i) \in \Delta^{C-1},
\tag{5}
\]

其中 \(\mathbf{q}_{i,k}\) 表示给定分子 \(i\) 时 \(\tilde{y}_i = k\) 的预测概率。然后通过最小化观测标签的负对数似然来训练模型:

\[
\mathcal{L}_{\text{obs}} = -\frac{1}{N} \sum_{i=1}^N \log \mathbf{q}_{i,\tilde{y}_i}.
\tag{6}
\]

由于 \(\mathbf{p}_i\) 是通过残差自然参数证据(公式 4)从图和文本表示中导出的,因此观测通道 \(h_{\text{obs}}\) 被激励从干净后验中解码噪声模式。重要的是,该通道学习在保持干净性质推理与噪声观测分离的同时,从记录标签中提取监督信号。在推理过程中,我们使用 \(\mathbf{p}_i\) 进行预测,丢弃观测通道,从而避免模型直接记忆噪声标签。

### 2.6 噪声感知学习目标

除了观测似然之外,MOLAR 还包含两个正则化项,以处理图-文本不一致问题并提高预测稳定性。

**证据冲突正则化。** 当图视图和文本视图提供矛盾的证据时(即 \(\boldsymbol{\lambda}_i^g\) 和 \(\boldsymbol{\lambda}_i^t\) 指向不同的类别),这可能是标签噪声或模态特异性证据不足的信号。不加选择地强制它们一致会抑制有益的模态特异性信号。相反,我们只惩罚高置信度的矛盾证据。具体来说,我们计算每个模态的预测:

\[
\mathbf{p}_i^g = \text{softmax}(\boldsymbol{\lambda}_i^g + \boldsymbol{\lambda}_0), \quad \mathbf{p}_i^t = \text{softmax}(\boldsymbol{\lambda}_i^t + \boldsymbol{\lambda}_0).
\tag{7}
\]

然后,我们将证据冲突定义为两个预测之间的对称 KL 散度,但仅当其置信度较高时应用惩罚:

\[
\mathcal{L}_{\text{conflict}} = \frac{1}{N} \sum_{i=1}^N \max\left(0, \text{KL}(\mathbf{p}_i^g \| \mathbf{p}_i^t) + \text{KL}(\mathbf{p}_i^t \| \mathbf{p}_i^g) - \tau \right),
\tag{8}
\]

其中 \(\tau\) 是一个可调阈值。该损失会惩罚超过 \(\tau\) 的矛盾证据,允许较小分歧存在,以避免过度平滑模态特异性信息。

**扰动一致性正则化。** 分子性质应在保持标签的化学扰动(如添加或删除不改变活性的官能团)下保持不变。为了加强这一点,我们引入了扰动一致性正则化。给定分子 \(i\),我们通过应用随机图扰动(例如,掩蔽原子或键)生成一个增强视图 \(G_i'\),并计算对应的干净后验 \(\mathbf{p}_i'\)。然后,我们强制原始后验和扰动后验之间的 KL 散度最小化:

\[
\mathcal{L}_{\text{consist}} = \frac{1}{N} \sum_{i=1}^N \text{KL}(\mathbf{p}_i \| \mathbf{p}_i').
\tag{9}
\]

该正则化鼓励模型学习对化学合理变化具有鲁棒性的表示,并稳定干净后验的预测。

**完整目标。** 总体损失函数为:

\[
\mathcal{L} = \mathcal{L}_{\text{obs}} + \alpha \mathcal{L}_{\text{conflict}} + \beta \mathcal{L}_{\text{consist}},
\tag{10}
\]

其中 \(\alpha\) 和 \(\beta\) 是平衡各项的超参数。我们通过反向传播联合训练所有组件。

### 2.7 训练与推理

在训练过程中,我们最小化公式 10 中的损失,使用小批量随机梯度下降。图和文本编码器、证据组合参数以及观测通道联合学习。在推理过程中,我们仅使用编码器和证据组合来计算干净后验 \(\mathbf{p}_i\),并取 \(\arg\max_c p_{i,c}\) 作为预测标签。观测通道被丢弃,确保预测不受观测噪声的直接影响。

## 3 实验

### 3.1 实验设置

**数据集。** 我们在两个基准上进行评估:(1) **天然噪声分子基准**,来自 Buterez 等人 (2023) 的论文,包含多个具有不同噪声水平的分子性质预测数据集。这些数据集中的标签源自自动分析流程或数据库,存在固有噪声。(2) **受控标签翻转基准**,我们在其中手动翻转 MoleculeNet 数据集 (Wu 等人, 2018) 中一定比例的标签(例如,10%、20%、40% 的翻转率)。我们报告各项指标的平均值和标准差(三次运行)。

**基线。** 我们将 MOLAR 与三组基线进行比较:(a) **仅图模型**:GCN、GAT、GIN,使用标准交叉熵损失训练。(b) **多模态模型**:MolCLR、Mole-BERT、GraphMVP 和 MV-Mol,它们使用对比学习或生成目标结合图和文本模态。(c) **噪声标签学习模型**:JoCoR、DivideMix、ELR 和 PeerLoss,它们专为噪声监督设计,但主要在单模态设置中工作。对于多模态基线,我们使用作者提供的实现或经过调整的版本,以公平比较。

**实现细节。** 我们使用 GIN 作为图编码器(3 层,隐藏维度 256)。文本编码器使用预训练的 SciBERT 模型,并对输出进行平均池化以获得 256 维表示。观测通道 \(h_{\text{obs}}\) 是一个两层 MLP(隐藏维度 128)。超参数设置:\(\tau = 0.5\),\(\alpha = 0.1\),\(\beta = 0.01\)。我们使用 Adam 优化器,学习率为 1e-4,批量大小为 32,训练 200 个周期。所有实验在 NVIDIA A100 GPU 上进行。

### 3.2 主要结果

**天然噪声基准。** 表 1 显示了天然噪声基准上的结果。MOLAR 在所有数据集上始终优于所有基线,在平均 F1 分数上比最佳多模态基线高出 3-5 个百分点。噪声标签学习基线(如 DivideMix)表现中等,但 MOLAR 通过其多模态设计和噪声感知目标进一步改进。

表 1:天然噪声基准上的性能(平均 F1 ± 标准差)。每个数据集上的最佳结果以粗体显示。

| 方法       | Tox21 | SIDER | ClinTox | BBBP | BACE |
|------------|-------|-------|---------|------|------|
| GCN        | 0.742 | 0.638 | 0.815   | 0.688 | 0.723 |
| GIN        | 0.755 | 0.652 | 0.831   | 0.701 | 0.738 |
| MolCLR     | 0.771 | 0.669 | 0.845   | 0.718 | 0.752 |
| GraphMVP   | 0.768 | 0.665 | 0.841   | 0.714 | 0.749 |
| DivideMix  | 0.789 | 0.684 | 0.862   | 0.735 | 0.768 |
| MOLAR      | **0.812** | **0.712** | **0.891** | **0.764** | **0.793** |

**受控标签翻转基准。** 表 2 显示了 MoleculeNet 数据集上不同标签翻转率的结果。随着翻转率的增加,所有方法性能下降,但 MOLAR 在所有设置下都优于基线,尤其是在高噪声水平(40%)下,比最佳基线高出 6-8 个百分点,证明了其鲁棒性。

表 2:BACE 数据集上不同标签翻转率的 AUC-ROC 结果。

| 翻转率 | GIN     | MolCLR  | DivideMix | MOLAR   |
|--------|---------|---------|-----------|---------|
| 0%     | 0.823   | 0.851   | 0.842     | **0.874** |
| 10%    | 0.761   | 0.802   | 0.813     | **0.856** |
| 20%    | 0.698   | 0.754   | 0.776     | **0.831** |
| 40%    | 0.601   | 0.672   | 0.709     | **0.781** |

### 3.3 消融研究

我们进行消融研究以评估 MOLAR 每个组件的贡献。结果如表 3 所示。移除观测通道(直接使用 \(\mathbf{p}_i\) 拟合记录标签)导致性能大幅下降,强调了标签观测分离的重要性。移除冲突正则化(\(\mathcal{L}_{\text{conflict}}\))会降低性能,尤其是在噪声水平高、模态间分歧显著时。移除一致性正则化(\(\mathcal{L}_{\text{consist}}\))会对泛化产生适度的负面影响。所有组件都对最终性能有所贡献。

表 3:在 Tox21 数据集上的消融研究(平均 F1)。

| 变体                                   | F1     |
|----------------------------------------|--------|
| MOLAR (完整)                           | **0.812** |
| w/o 观测通道 (直接拟合记录标签)        | 0.765  |
| w/o 证据冲突正则化                     | 0.793  |
| w/o 扰动一致性正则化                   | 0.801  |

### 3.4 可视化分析

**后验可靠性。** 图 3 显示了 MOLAR 对示例分子的后验标签可靠性。对于记录标签与模型后验高度一致的分子(高可靠性),置信度较高。对于记录标签可能被噪声污染的分子(低可靠性),后验分布更平坦,反映出不确定性。这为诊断训练数据中的潜在错误标签提供了可解释的工具。

参见图注图 3:MOLAR 对两个示例分子推断的后验可靠性。顶部:记录标签(类 1)与模型后验一致,可靠性(最大后验概率)高。底部:记录标签与模型预测矛盾,表明可能被噪声污染。

**模态特异性证据。** 我们还可视化了图和文本视图对最终后验的相对贡献。对于某些分子,图证据占主导地位(例如,结构特征决定活性),而文本证据在其他分子中更重要(例如,文本描述提供关键药理学背景)。这种可视化有助于理解每种模态提供的分子证据,并有助于下游分析和模型调试。

参见图注图 4:MOLAR 中图和文本证据的相对贡献示例。每个条表示图(蓝色)或文本(橙色)的自然参数证据对最终后验 logit 的贡献。顶部分子:图证据主导。底部分子:文本证据更重要。

## 4 讨论

本文提出了 MOLAR,一个用于从噪声标签中学习多模态分子表征的噪声感知框架。通过将干净性质推理与记录标签观测分离,并引入残差自然参数证据组合和标签观测通道,MOLAR 在利用噪声监督的同时避免了直接记忆损坏标签。实验表明,MOLAR 在天然噪声和受控标签翻转基准上均优于现有方法。

MOLAR 的一个局限性是观测通道 \(h_{\text{obs}}\) 的容量有限:一个简单的 MLP 可能无法捕捉复杂的噪声转移模式。在存在结构化噪声(例如,特定于化学子结构的偏差)的情况下,更复杂或领域特定的噪声模型可能会带来改进。此外,我们目前的评估侧重于分类任务;将 MOLAR 扩展到回归设置是一个有前景的方向。

未来的工作包括将 MOLAR 扩展到更大的多模态预训练数据集,将其应用于新型化合物屏幕和虚拟筛选的现实场景,并探索采用更丰富噪声模型的替代观测通道设计。

## 5 结论

我们提出了 MOLAR,一种用于从噪声标签中学习多模态分子表征的新颖噪声感知框架。MOLAR 通过以下方式解决了噪声监督下的三个关键挑战:(1) 使用残差自然参数证据将干净性质预测与记录标签分离;(2) 通过分类标签观测通道将记录标签作为监督信号使用;(3) 通过冲突正则化和扰动一致性正则化处理图-文本不一致问题。实验表明,MOLAR 在噪声基准上取得了最先进的性能,并提供了可解释的可信度和证据诊断。

## 参考文献

boldini2024machine; buterez2023mf; deng2023systematic; duvenaud2015convolutional; edwards2022translation; fang2024mol; liao2025instance; lin2024learning; liu2023identifiability; liu2023molca; liu2023multi; ma2022cross; mcgibbon2024intuition; nguyen2024noisy; pei2023biot5; pei2024biot5+; rogers2010extended; rollins2024molprop; ross2022large; sadeghi2024can; smiles; wang2022advanced; wang2024chain; wang2024degree; wang2025dusego; wang2026brain; wang2026nested; wang2026riemannian; wang2026sgac; wang2026usbd; wei2023fine; wu2018moleculenet; wu2023molecular; yoshikai2024difficulty; zhang2024mvmrl; zhao2024molecular; zheng2025large

## 附录 A:更多实验细节

...(附录内容略,因用户未提供详细附录文本,但若存在,也应翻译)

相似文章

GLACIER: 一种用于分子性质预测的多模态学生-教师基础模型

arXiv cs.LG

本文介绍了GLACIER,一种多模态学生-教师基础模型,它整合了分子图、SMILES字符串和物理化学描述符,以高效预测分子性质。它利用Finsler几何感知融合以及来自更大教师模型(MiniMol、MolFormer)的知识蒸馏,以轻量级架构实现高性能。

通过目标感知源选择重新思考分子OOD泛化

arXiv cs.LG

本文介绍了SCOPE-Bench,一个评估分子分布外泛化的基准测试,以及POMA,一个使用强化学习选择源域进行域自适应的框架,在3D分子模型上实现了显著的误差降低。

LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习

arXiv cs.LG

LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。