质量感知多模态融合何时真正发挥作用？一种用于决策级依赖的防泄漏诊断方法

arXiv cs.LG 2026/06/26 04:00 论文

multimodal-fusion quality-aware reliability stress-recognition sentiment-analysis diagnostic leakage-safe

摘要

本文提出了一种防泄漏诊断方法，通过跨测试样本打乱可靠性分数，来检验质量感知多模态融合方法在推理时是否真的使用了这些分数。在StressID和CMU-MOSEI上的实验表明，打乱后的可靠性分数并未改变性能，说明质量信号仅在能可靠预测单模态正确性时才会影响决策。

arXiv:2606.26473v1 公告类型：新摘要：许多多模态系统会估计每个模态的可靠性，并对其在最终预测中的贡献进行加权。然而，目前仍不清楚这些分数是否影响模型决策，抑或仅与性能相关。我们提出了一种简单的诊断方法，用于测试推理过程中是否使用了可靠性信息。训练完成后，模型和输入保持不变，而可靠性分数则在测试样本间进行打乱。如果预测依赖于这些分数，那么性能应该会下降。在StressID（压力识别）和CMU-MOSEI（情感分析）上的实验表明，尽管通过为每个实例选择最佳模态有显著的潜在增益，但打乱可靠性分数后性能并未改变。在正对照实验中，当可靠性信号能够识别正确模态时，相同的冻结融合规则带来了显著的改进，这表明可靠性信号仅在能够可靠地预测单模态正确性时才会影响融合决策。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:20

# 质量感知多模态融合何时重要？一种泄漏安全的决策级依赖性诊断方法
来源：https://arxiv.org/html/2606.26473
Moon Pillai Campbell

###### 摘要

许多多模态系统会估计每种模态的可靠性，并根据这些估计对最终预测进行加权。然而，目前仍不清楚这些评分是否真正影响模型决策，还是仅仅与性能相关。本文提出一种简单的诊断方法，用于测试推理过程中是否使用了可靠性信息。训练完成后，模型和输入保持不变，而可靠性评分在测试样本之间进行置换。如果预测依赖于这些评分，性能应会下降。在StressID（压力识别）和CMU-MOSEI（情感分析）上的实验表明，尽管通过为每个样本选择最佳模态可以获得显著的潜在性能提升，但置换可靠性评分后性能保持不变。在正对照实验中，当可靠性信号能正确识别模态时，相同的冻结融合规则能带来显著改善，这表明可靠性信号只有在能可靠地预测单模态正确性时才会影响融合决策。

###### 关键词：

多模态融合，说话人状态自动分析，压力检测，质量感知融合，可靠性估计，鲁棒多模态系统

## 1 引言

由于传感器故障、噪声和环境干扰，多模态系统经常遇到异质的证据质量[Baltrusaitis.2018, nagaraj2023heterogeneity]。质量感知和不确定性感知融合方法旨在通过根据估计的可靠性评分对每种模态进行加权来处理这个问题。然而，目前仍不清楚这些评分是否在推理时真正影响模型决策，或者观察到的改进是否仅仅反映了数据中的相关性[tian2020uno, han2021trusted]。这引出了一个核心问题：何时基于可靠性的条件作用会实际改变多模态预测？我们将这些可靠性估计称为*质量信号*（\(Q\)）。

这个问题对于情感和压力识别尤为重要，这些系统通常使用早期融合、晚期融合或混合专家架构来组合语音、面部视频和生理信号[han2021, zadeh2017, zhao22_interspeech, prisayad23_interspeech, tsai.2019, li.2024.correlated, liu.2025.missing]。质量感知加权方案也已被提出用于多模态场景[Baltrusaitis.2018, soleymani.2022, Li22.INT, schrufer24_interspeech]。然而，标准评估通常报告的是质量感知架构是否表现良好，而不是质量信号本身是否对决策相关。一个模型可能因为架构灵活性、数据集相关性或缺失模式而有所改进，即使质量估计并未用于决定信任哪种模态[Tellamekala2022, schuller21_compare]。

为了直接测试决策层级的依赖关系，我们将多模态推理表述为 \(p(y \mid E, M, Q)\)，其中分离了模态证据 \(E\)、可用性掩码 \(M\) 和质量信号 \(Q\)。我们提出了一种泄漏安全、对齐破裂的诊断方法：训练后，模型被冻结，质量值在留出样本之间进行洗牌，同时感官证据、模态可用性和融合规则保持不变。匹配条件，即 Clean-\(Q\)，在推理时使用观测到的质量值。洗牌条件，即 Broken-\(Q\)，保留了质量值的边际分布，但打破了它们与对应输入在实例层面的对齐。为了隔离质量效应与缺失效应，我们在完全观测的样本（所有模态都存在）上进行评估。

我们主要在 StressID[chaptoukaev2023stressid] 上评估了这种诊断方法，该数据集包含异质的模态可用性，并额外在 CMU-MOSEI[zadeh2018MOSEI] 上作为接近完全观测的边界情况进行评估。在这些设置中，洗牌原生质量信号产生了近乎为零的性能变化，尽管选择每个样本最佳模态的预言机表明更好的路由是可能的。相比之下，当质量被构造为跟踪损坏或单模态正确性时，正对照实验产生了较大的性能变化。这些结果表明，只有质量估计能够识别当前实例中哪种模态可靠时，质量感知融合才会影响决策。

贡献。

- • **诊断方法**。我们提出了一种泄漏安全的事后测试，在固定专家和融合参数的情况下，比较匹配的质量值与洗牌后的质量值。
- • **实证发现**。在 StressID 以及接近完全观测的 CMU-MOSEI 边界情况下，洗牌原生质量值产生的性能变化可以忽略不计，尽管存在更好的逐实例路由空间，这表明对原生质量信号的决策层级依赖很小。
- • **验证**。当质量与损坏或单模态正确性对齐时，正对照实验产生了较大的置换差距，证明该诊断方法能够在质量实际识别出可靠专家时检测到对质量的依赖。

## 2 决策层级可识别性诊断

对于每个交叉验证折，我们将数据分为训练行和留出测试行。该诊断方法提出了一个有针对性的问题：在多模态模型训练完成后，当仅破坏质量估计与测试实例之间的匹配时，其预测是否会改变？

**分离证据、可用性和质量**。对于模态 \(m\) 和实例 \(i\)，我们使用三个组成部分来表示输入：证据 \(E_{m,i}\)、可用性 \(M_{m,i} \in \{0,1\}\) 和质量 \(Q_{m,i}\)。可用性指示模态是否被观测到，而质量估计观测到的证据的可靠性。这种分离区分了“中断”（模态缺失，\(M_{m,i}=0\)）和“降级”（模态存在但损坏，\(M_{m,i}=1\) 且 \(E_{m,i}\) 不可靠）。产生的多模态决策规则是

\(p(y_i \mid \{E_{m,i}, M_{m,i}, Q_{m,i}\}_{m \in \mathcal{M}})\).

**对齐破裂控制**。令 Clean-\(Q\) 表示推理时使用的观测质量值。Broken-\(Q\) 通过将 \(Q_{m,i}\) 在模态 \(m\) 存在的留出测试行之间进行洗牌而形成，同时保持证据 \(E\) 和可用性 \(M\) 固定。这保留了质量值的边际分布和可用性模式，但打破了质量估计与其对应证据之间的实例级联系。例如，来自干净音频的质量评分可能被分配给另一个留出的语音段；性能下降则表明融合预测依赖于音频质量与音频证据之间的对齐。

为了隔离质量效应与缺失效应，评估被限制在完全观测的实例上，

\(\mathcal{D}_{\mathrm{FULL}} = \{ i \mid \forall m \in \mathcal{M}, M_{m,i}=1 \}\). 在这个集合上，可用性是恒定的，因此任何 Clean-\(Q\) 与 Broken-\(Q\) 之间的差异反映的是对质量-证据对齐的依赖，而非缺失模态。

**可识别性统计量**。令 \(S(\cdot)\) 表示评估指标，这里采用平衡准确率（在二分类情况下等同于未加权平均召回率）[brodersen2010balanced, schuller2013paralinguistics]。对于每次置换 \(k\)，令 \(Q^{(k)}\) 表示一个 Broken-\(Q\) 样本，其通过在

\(\{ i \in \mathrm{TEST} : M_{m,i}=1 \}\) 内对每个模态 \(m\) 的 \(Q_{m,i}\) 进行洗牌而获得，同时保持 \(E\) 和 \(M\) 固定。置换差距为

\(\Delta_{\mathrm{perm}} = S(\mathrm{Clean}\text{-}Q) - \mathbb{E}_k [S(\mathrm{Broken}\text{-}Q^{(k)})]\).   (1)

如果训练后的融合规则以实例特定的方式使用质量，那么 Clean-\(Q\) 应该优于其洗牌后的对照控制，并且 \(\Delta_{\mathrm{perm}}\) 应为正。

定义 \(s_0 = S(\mathrm{Clean}\text{-}Q)\) 和 \(s_k = S(\mathrm{Broken}\text{-}Q^{(k)})\)。我们使用 Phipson 和 Smyth[phipson2010permutation] 的无偏估计量计算单侧置换值：\(p_{\mathrm{perm}} = (1 + \sum_k \mathbf{1}[s_k \geq s_0]) / (K+1)\)。在原假设（预测对质量洗牌不变）下，Clean-\(Q\) 和 Broken-\(Q\) 的评分是可交换的。

图1 (https://arxiv.org/html/2606.26473#S2.F1) 总结了该诊断方法的两个部分：面板 A 显示了在证据和可用性不变的情况下对质量进行测试时干预，面板 B 预览了第6节 (https://arxiv.org/html/2606.26473#S6) 报告的实证特征：原生质量产生近乎为零的差距，而对齐的正对照实验产生正的差距。

**解释与结构前提**。原假设并非质量总体无用；而是这个训练后的融合规则在推理时对质量-实例对齐不变。正的置换差距表明，在固定专家和融合参数的情况下，质量会影响融合决策，而近乎为零的差距表明洗牌质量并未对决策规则产生可测量的改变。

当质量感知路由本可能起作用时，近乎为零的差距最有信息量。因此我们报告预言机提升空间，

\(\text{Headroom} = S(\text{Oracle}) - S(\mathrm{Clean}\text{-}Q)\),   (2)

其中 Oracle 为每个实例选择真实类别置信度最高的单模态专家。我们还报告竞争力 \(\Delta_i = p_{(1),i}(y_i) - p_{(2),i}(y_i)\) 和质量-正确性对齐 \(\rho_m = \operatorname{corr}(Q_{m,i}, \mathbf{1}(\hat{y}_{m,i}=y_i))\)。这些量共同描述了质量*可能*起作用的情况；而置换差距则测试在冻结的融合规则下它是否*确实*起作用。

图 1: Clean–Broken 诊断方法与实证特征。面板 A 冻结专家和融合，仅改变质量对齐；证据 \(E\) 和可用性 \(M\) 保持不变。面板 B 显示近乎为零的原生质量差距和正的对齐控制差距。

## 3 数据集

我们在两个互补的多模态数据集上评估该诊断方法。StressID 是主要场景，因为它针对压力识别，并且在语音、面部视频和生理信号之间具有自然的非对称模态可用性。CMU-MOSEI 作为次要边界情况：它是一个不同的多模态预测任务，具有近乎完整的语言、声学和视觉模态，使我们能够测试当缺失性基本不存在时 Clean–Broken 模式是否持续。

**StressID**。StressID[chaptoukaev2023stressid] 包含来自 65 名参与者执行 11 个任务的同步面部视频、语音和生理信号。压力标签来源于自我评估的压力/放松和效价/唤醒。发布的数据集包含 711 个带注释的生理记录、587 个带注释的视频和 385 个带注释的音频记录，总计超过 39 小时的注释数据。对我们的诊断方法而言，其关键属性是异质的可用性：音频仅存在于七个互动谈话任务中，并且由于采集失败，额外的视频或音频录音缺失。

**CMU-MOSEI**。CMU-MOSEI[zadeh2018MOSEI] 包含来自 3,228 个视频、1,000 个说话者的 23,453 个带注释的观点片段，涵盖 250 个主题。每个片段都进行了 \([-3, 3]\) 范围内的情感注释，并包含对齐的语言、声学和视觉特征，包括 COVAREP 声学特征和 FACET 视觉特征。与 StressID 不同，CMU-MOSEI 在我们处理后的设置中几乎是完全观测的，因此我们将其用作质量对齐的边界情况，而不是作为现实的模态中断基准。

## 4 实验协议

我们的协议旨在整个评估过程中保持三个量分开：模态证据、模态可用性和质量估计。我们首先为每个数据集构建一个对齐的实例表，然后应用分组不相交的划分，训练单模态专家，最后测试仅改变质量值是否会影响冻结的融合决策。

**对齐实例表**。对于每个数据集，我们构建一个固定顺序的表，每个 StressID 任务实例或 CMU-MOSEI 片段对应一行。每行存储模态证据 \(E\)、可用性掩码 \(M\)、质量值 \(Q\) 和标签。在 StressID 中，生理学实例 ID 定义了行的顺序，因为生理学在各项任务中提供了最一致的覆盖；音频和视频嵌入通过精确 ID 匹配进行连接。在 CMU-MOSEI 中，与官方标签键对齐的观点片段定义了行的顺序。缺失的模态特征向量仅为了表示一致性而被零填充，并通过 \(M_m=0\) 标记为不可用。

**单模态表示**。对于 StressID，我们从每个原始信号流中提取冻结的预训练嵌入。使用 Wav2Vec2-base[baevski2020wav2vec] 获取音频嵌入，使用预训练的 AffectNet 编码器[AffectNet] 获取面部嵌入，使用 MOMENT-1-large 时间序列编码器[MOMENT] 获取生理嵌入。生理学使用心电图和皮肤电反应；呼吸因原始信号不可用而被排除。帧级或窗口级特征被平均池化为每个实例一个向量。编码器保持冻结，因此仅训练单模态分类器和融合组件。对于 CMU-MOSEI，我们使用提供的对齐语言、声学 (COVAREP) 和视觉 (FACET) 特征。

**交叉验证**。我们使用 \(5\) 个种子 \(\times\) \(5\) 折 StratifiedGroupKFold[pedregosa2011scikit] 划分，总共 25 折。对于 StressID，划分是受试者不相交的；对于 CMU-MOSEI，是视频不相交的，防止训练集和留出测试行之间的身份泄漏。

**质量构建**。原始信号派生的质量度量对每种模态计算一次，并对齐到固定的行顺序（表1 (https://arxiv.org/html/2606.26473#S4.T1)）。对于每个种子、折和模态 \(m\)，分位数缩放仅在该模态被观测到的训练行上拟合，即 \(M_{m,i}=1\) 的行。然后将拟合的缩放器不变地应用于留出的测试行。缩放后，缺失或非有限的质量值被映射为 \(0\)。对齐后的质量值定义了 Clean-\(Q\)；Broken-\(Q\) 通过在对应模态被观测到的行之间置换留出测试质量值而构成。

表 1: 原始质量定义。\(M_m\) 指示模态 \(m\) 是否被观测到；\(Q_m\) 指示折缩放后的模态 \(m\) 质量值。缺失或非有限的原始质量值在仅基于训练集缩放后被映射为零。较高的 \(Q_m\) 表示估计的可靠性较高。

| 模态 \(m\) | 原始质量定义 |
|-----------|--------------|
| 面部视频 | 基于面部动作单元 (AU) 的变化性：视频被分为 3 秒片段；对每个片段中的 AU 强度取标准差；质量是这些片段方差的均方根。 |
| 语音 | 基于语音活动检测 (VAD) 从原始音频计算的信噪比 (SNR) (dB)。 |
| 生理学 (ECG+EDA) | 基于信号质量的组合度量：ECG 的信噪比 (SNR) 和 EDA 的皮肤电导水平 (SCL) 范围；取两个度量标准化后的平均值。 |

**训练与评估**。对于每一折，单模态专家在观测到的训练行上进行训练，并为训练和留出测试行产生概率输出。融合模型仅在单模态专家固定后才进行训练。然后我们在完全观测的留出测试实例上评估 Clean-\(Q\) 和 Broken-\(Q\)，因此任何差异都反映的是质量对齐而非缺失模态。结果以 25 折的平均值 \(\pm\) 标准差（平衡准确率）报告。代码和预计算的人工制品将在发表后发布。

## 5 融合方法

我们使用决策级融合，以便诊断方法测试固定单模态专家之间的路由，而不是表征学习的变化。对于每个种子 \(\times\) 折和模态 \(m\)，一个单模态专家被训

质量感知多模态融合何时真正发挥作用？一种用于决策级依赖的防泄漏诊断方法

相似文章

MuteBench：不完整多模态融合中的模态不可用容忍度评估

融合之前，先问保留什么：多模态信号的上下文校准

探测、融合与可信度：面向多模态癌症分析的基础模型表征系统评估

基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择

点态指标误导：多模态逆问题的评估协议

提交意见反馈