点态指标误导:多模态逆问题的评估协议

arXiv cs.LG 论文

摘要

本文表明,对于具有多模态后验的逆问题,像RMSE和MAE这样的点态指标在结构上具有误导性,因为最优点估计会压缩后验并扭曲谱特征。为此,本文提出了一种三部分评估协议,使用逐事件分布准确性、谱保真度诊断和基于覆盖的校准来应对这些失败。

arXiv:2605.22891v1 公告类型:新 摘要:科学重建中的评估主要采用点态指标——RMSE、MAE、逐事件分辨率——其隐含假设是误差越小重建越好。我们表明,对于具有多模态后验的逆问题,这一假设在结构上失效。根据全方差定律,在训练中最小化MSE或MAE的点估计器,当后验宽度非零时,其产生的边际谱严格窄于真实情况。由此产生的偏差与架构、训练和数据集大小无关,并且恰好压缩了下游科学测量所依赖的谱特征——尾部、模、形状。我们提出一个三部分评估协议,每一步针对其他步骤遗漏的失败模式:通过CRPS评估逐事件分布准确性,通过谱保真度诊断评估总体边际准确性,以及通过基于覆盖的校准评估不确定性可信度。在一个具有解析后验的合成基准和一个来自粒子物理学的现实多对一逆问题上,模型排名在点态指标和分布指标之间发生逆转,而校准进一步区分了在CRPS下无法区分的架构。决定科学结论的是评估协议,而非模型。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:56

# 逐点指标误导:多模态逆问题的评估协议 来源:https://arxiv.org/html/2605.22891 Mads H\. Baattrup 德国电子同步加速器中心 汉堡,德国 mads\.baattrup@desy\.de &Jörn Bach 德国电子同步加速器中心 汉堡,德国 joern\.bach@desy\.de &Laurids Jeppe CERN 日内瓦,瑞士 laurids\.jeppe@cern\.ch &Finn Labe 德国电子同步加速器中心 汉堡,德国 finn\.labe@desy\.de &Alexander Grohsjean 汉堡大学 汉堡,德国 alexander\.grohsjean@uni\-hamburg\.de &Christian Schwanenberger 德国电子同步加速器中心 汉堡,德国 christian\.schwanenberger@desy\.de &Peer Stelldinger 汉堡应用科学大学 汉堡,德国 peer\.stelldinger@haw\-hamburg\.de ###### 摘要 科学重建中的评估被逐点指标(RMSE、MAE、逐事例分辨率)所主导,其隐含假设是误差越低意味着重建越好。我们表明,对于具有多模态后验的逆问题,这一假设在结构上不成立。根据全方差定律,当后验具有非零宽度时,训练以最小化 MSE 或 MAE 的点估计器产生的边际谱严格窄于真实分布。由此产生的偏差与架构、训练和数据集大小无关,并且恰好压缩了下游科学测量所依赖的谱特征——尾部、模态、形状。我们提出一个三部分评估协议,每部分针对其他部分遗漏的失败模式:通过 CRPS 的逐事例分布准确性、通过谱保真度诊断的群体水平边际准确性、以及通过基于覆盖率的校准的不确定性可信度。在带有解析后验的合成基准测试和一个来自粒子物理的现实多对一逆问题上,模型排名在逐点指标和分布指标之间发生逆转,而校准进一步区分了在 CRPS 下难以区分的架构。决定科学结论的是评估协议,而非模型。 ## 1 引言与范围 在科学重建中,评估并非一个中立的后期处理步骤:我们报告的指标决定了哪些模型得以推进以及哪些物理结论成立。在粒子物理、医学成像和地球物理学中,评估被逐点分辨率指标(均方根误差 RMSE、平均绝对误差 MAE、逐事例偏差)主导,这些指标衡量每个预测与真实值的接近程度。我们表明,对于具有多模态后验的欠约束逆问题,这一惯例在结构上不成立。均方误差 (MSE) 下的最优预测器是条件期望 [6 (https://arxiv.org/html/2605.22891#bib.bib1)],对于多模态后验,该期望可能落在概率密度为零的区域之间的模态之间。实现更低 MSE 的模型通过更激进地压缩后验来做到这一点,产生逐个体上“非物理”的预测,并集体扭曲重建的谱。这是一个**评估疏忽**,而非模型失败。我们提出以下贡献: 1. 1\.一个理论论证(第 3.2 节 (https://arxiv.org/html/2605.22891#S3.SS2)),表明当后验具有非零方差时,任何最小化 MSE 或 MAE 的点估计器产生的边际谱严格窄于真实分布——这一偏差与架构、训练目标和数据集大小无关。 2. 2\.一个三部分评估协议——逐事例分布准确性、群体水平谱保真度和基于覆盖率的校准——诊断逐点指标遗漏的失败模式,并在共同尺度上适用于回归、混合和生成模型族。 3. 3\.在带有解析后验的受控合成基准测试和一个来自粒子物理的现实多对一逆问题上的实证展示,表明模型排名在逐点指标和分布指标之间发生逆转,并且校准进一步区分了在逐事例分布准确性指标下难以区分的架构。 ##### 范围 我们考虑完全监督的逆问题,其中配对潜变量 \(z\) 和观测值 \(x\) 可通过模拟获得,且下游关注量是数据集上的边际分布 \(p(z)\) 而非全局参数的后验。假设在评估时可访问真实 \(z\)。我们不涉及高维 \(z\) 的联合后验结构、训练与部署之间的域偏移,或无监督设置。除此之外,我们的分析与领域无关:任何具有非可忽略后验方差的逆问题都属于范围之内。 ## 2 背景与相关工作 ##### 完全监督的逆问题 我们考虑从含噪观测 \(x \in \mathbb{R}^m\) 恢复潜状态 \(z \in \mathbb{R}^n\) 的任务,观测通过前向模型 \(x = G(z, \xi)\) 关联,其中 \(\xi\) 表示测量噪声或物理随机性——这样一对 \((z, x)\) 通常被称为一个**事例**或一个**样本**。在科学领域——粒子重建、地震成像、医学断层扫描——\(G\) 是一个高保真模拟器,其逆在解析上难以处理。当大量配对 \((z, x)\) 样本可用时,任务变为一个**完全监督的逆问题**:学习一个近似后验 \(p(z \mid x)\) 的替代模型 \(G^\dagger\)。这类问题通常是不适定的,可能由于 \(\xi\) 的随机性或 \(x\) 中的信息损失而允许多个或无精确解。 ##### 科学重建中的评估 由于科学重建通常逐事例进行,评估传统上也遵循相同结构,由 RMSE、MAE 或逐事例误差分布的分辨率和偏差主导。这一惯例似乎是普遍的:RMSE 和 MAE 是粒子重建 [18 (https://arxiv.org/html/2605.22891#bib.bib24), 46 (https://arxiv.org/html/2605.22891#bib.bib25)]、稀疏视图计算机断层扫描 [47 (https://arxiv.org/html/2605.22891#bib.bib7)]、图像超分辨率基准 [54 (https://arxiv.org/html/2605.22891#bib.bib6)]、气候降尺度 [52 (https://arxiv.org/html/2605.22891#bib.bib8)] 和地球物理反演 [32 (https://arxiv.org/html/2605.22891#bib.bib5)] 中的首要指标,并且常被直接用作训练目标。更低的误差被隐含地认为意味着更好的重建(在聚合时也是如此)——对于约束良好的单模态问题这是正确的,但当条件后验具有非零宽度时则不然(第 3 节 (https://arxiv.org/html/2605.22891#S3))。点预测也常被报告,即使底层方法产生完整的后验:用于引力波参数估计的生成模型通常用中位数和 90% 区间来总结 [45 (https://arxiv.org/html/2605.22891#bib.bib10), 15 (https://arxiv.org/html/2605.22891#bib.bib11)],而用于中微子运动学的归一化流最终通过从后验中提取的点估计进行评估 [43 (https://arxiv.org/html/2605.22891#bib.bib9)]。这种“生成到回归”的瓶颈之所以持续存在,是因为社区缺乏一个鼓励保留后验结构的结构化评估协议。 ##### 与基于模拟的推断 (SBI) 的联系 学习替代模型 \(G^\dagger\) 是摊销神经后验估计 (NPE) [13 (https://arxiv.org/html/2605.22891#bib.bib15), 38 (https://arxiv.org/html/2605.22891#bib.bib16)] 的一个实例。我们的设置与标准 SBI 有两个不同之处:潜变量 \(z\) 是逐事例的,并在 \(\mathcal{O}(10^4-10^6)\) 个事例上摊销;科学关注量是聚合后的边际分布 \(p(z)\),而非全局参数的后验。这促使我们设计一个同时针对逐事例准确性和群体水平保真度的评估协议。 ##### 适当评分规则、校准与评估原则 概率预测的评估需要奖励**忠实**分布而非尖锐点预测的指标。一个评分规则 \(S(F, z)\) 是**适当**的,如果它在真实分布下的期望被 \(F\) 等于该分布时最小化,并且是**严格适当**的,如果唯一如此 [23 (https://arxiv.org/html/2605.22891#bib.bib28)]。适当性将诚实的概率评估与可能被后验压缩“博弈”的指标区分开来。连续排名概率得分 (CRPS) 是单变量分布预测的标准适当评分规则,源自概率天气预报文献 [23 (https://arxiv.org/html/2605.22891#bib.bib28), 28 (https://arxiv.org/html/2605.22891#bib.bib22)]。对于预测累积分布 \(F\) 和观测值 \(z\),其定义为: \[ \mathrm{CRPS}(F,z) = \int_{-\infty}^{\infty} \left[F(t) - \mathbf{1}(t \geq z)\right]^2 \mathrm{d}t, \tag{1} \] 其中 \(\mathbf{1}(\cdot)\) 表示指示函数。当预测分布由 \(N\) 个后验样本 \(\{\hat{z}^k\}_{k=1}^N\) 表示时,CRPS 可通过排序在 \(\mathcal{O}(N \log N)\) 内估计 [31 (https://arxiv.org/html/2605.22891#bib.bib27)],显式形式见附录 A.1 (https://arxiv.org/html/2605.22891#A1.SS1)。两个性质与当前设置特别相关。首先,当 \(F = \delta(\hat{z})\) 是点预测 \(\hat{z}\) 处的狄拉克分布时,CRPS 退化为 MAE,使其可在共同尺度上直接应用于生成模型和回归模型。其次,CRPS 逐事例报告后平均,提供与 RMSE 或 MAE 相同的粒度,因此数据集平均 CRPS 可以作为标准逐点分辨率指标的即插即用替代。除适当评分外,校准评估名义可信区域是否以声称的频率包含真实值 [27 (https://arxiv.org/html/2605.22891#bib.bib19), 51 (https://arxiv.org/html/2605.22891#bib.bib20), 26 (https://arxiv.org/html/2605.22891#bib.bib13), 33 (https://arxiv.org/html/2605.22891#bib.bib14)];我们使用共形变体 [21 (https://arxiv.org/html/2605.22891#bib.bib31), 53 (https://arxiv.org/html/2605.22891#bib.bib32), 1 (https://arxiv.org/html/2605.22891#bib.bib30)] 以获得有限样本保证和跨族可比性。SBI 基准 [37 (https://arxiv.org/html/2605.22891#bib.bib18)] 和覆盖诊断 [27 (https://arxiv.org/html/2605.22891#bib.bib19), 51 (https://arxiv.org/html/2605.22891#bib.bib20), 34 (https://arxiv.org/html/2605.22891#bib.bib21)] 为全局参数上的贝叶斯后验开发了这些工具。我们考虑的聚合潜变量设置——其中科学关注量是数据集上的边际分布 \(p(z)\)——并非它们的目标,群体水平谱诊断也不是它们协议的一部分。InverseBench [55 (https://arxiv.org/html/2605.22891#bib.bib23)] 主要使用逐点质量指标建立了强大的重建基线。多模态后验结构未被评估,作者指出对此的系统评估仍是开放问题。共形校准已应用于 HEP [1 (https://arxiv.org/html/2605.22891#bib.bib30)],但将其与 CRPS 和谱保真度结合用于监督重建的跨族比较,据我们所知,这是首次。 ##### 当前方法 当前处理科学逆问题的方法分为三类,每类在多个领域均有建立。**解析求解器**利用前向模型结合领域特定的物理约束,通过求解代数或变分约束从 \(x\) 恢复 \(z\)。例子涵盖射电天文图像重建 [29 (https://arxiv.org/html/2605.22891#bib.bib3)]、物理中的顶夸克重建 [48 (https://arxiv.org/html/2605.22891#bib.bib4)] 和经典地球物理反演 [32 (https://arxiv.org/html/2605.22891#bib.bib5)]。这些方法可解释性强,但在噪声和欠定条件下容易退化。**深度回归**已成为上述领域中最主流的基于学习的方法,通常通过优化逐点指标进行训练。群体水平正则化器(例如最大均值差异 (MMD) 惩罚 [11 (https://arxiv.org/html/2605.22891#bib.bib26)])通过边际分布对齐进行补充,但不处理逐事例结构。**生成模型**提供了实现完整后验估计的途径 [2 (https://arxiv.org/html/2605.22891#bib.bib12)],应用包括中微子重建 [43 (https://arxiv.org/html/2605.22891#bib.bib9)] 和引力波参数估计 [45 (https://arxiv.org/html/2605.22891#bib.bib10)]。 ## 3 逐点评估指标的局限性 逐点指标与多模态重建的目标不一致。以下论证与模型无关,适用于任何从多模态后验中提取点预测的方法。我们重点关注由多模态性引起的点估计失败。另一种 Jensen 间隙失败模式,当下游可观测量是潜变量的非线性函数时出现——也强调了在潜空间中 MSE 最优的预测器通常映射到可观测量后并非 MSE 最优——在附录 D.8.1 (https://arxiv.org/html/2605.22891#A4.SS8.SSS1) 中讨论。 ### 3.1 条件均值病理学 考虑一个通用逆问题:给定观测 \(x\),恢复按条件后验 \(z \sim p(z \mid x)\) 分布的潜变量 \(z\)。点估计器 \(f_\theta(x)\) 的 MSE: \[ \mathcal{L}(\theta) = \mathbb{E}_{z \sim p(z \mid x)} \left[ \| f_\theta(x) - z \|^2 \right] \tag{2} \] 被条件期望 \(\mathbb{E}[z \mid x]\) [6 (https://arxiv.org/html/2605.22891#bib.bib1)] 最小化,其中 \(f_\theta(x)\) 是 \(G^\dagger\) 替代模型,\(\|\cdot\|\) 是 L2 范数。当 \(p(z \mid x)\) 是多模态时,条件均值可能占据**零**后验密度的区域。一个说明性的例子是双对称后验,包含两个高斯分量,均值在 \(\pm a\),方差 \(\sigma^2\): \[ p(z \mid x) = \frac{1}{2} \mathcal{N}(z; +a, \sigma^2) + \frac{1}{2} \mathcal{N}(z; -a, \sigma^2), \qquad a \gg \sigma. \tag{3} \] MSE 最优预测是 \(f_\theta(x) = 0\),当模态分离良好 (\(a \gg \sigma\)) 时,其后验密度 \(p(z=0 \mid x) \approx 0\)。换句话说,在平方误差下的“最佳”预测是一个后验赋予基本零概率的值。 ### 3.2 聚合下的谱建模错误 这种逐事例病理学具有直接的群体水平后果。在许多科学应用中,最终关注量并非逐事例估计 \(f_\theta(x)\),而是 \(z\) 在数据集上的**边际分布**,可称为**谱**或**去折叠分布**。根据全方差定律 [25 (https://arxiv.org/html/2605.22891#bib.bib2)]: \[ \text{Var}[z] = \underbrace{\mathbb{E}\left[\text{Var}\left[z \mid x\right]\right]}_{\text{后验内方差}} + \underbrace{\text{Var}\left[\mathbb{E}\left[z \mid x\right]\right]}_{\text{点估计的方差}}, \tag{4} \]

相似文章

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

多目标无监督特征选择中的目标诱导偏差与搜索动态

arXiv cs.LG

本文系统研究了不同评估目标(准确率、轮廓系数、PCA重构损失)以及子集大小正则化方向如何影响多目标无监督特征选择中的搜索动态与解质量,结果表明基于轮廓的公式倾向于产生琐碎的低基数解,而PCA损失则能生成紧凑且具有竞争性准确率的子集。

视觉的代价:在单一范式中实现可信的多模态推理

Hugging Face Daily Papers

本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。