退化蒸馏器

arXiv cs.LG 论文

摘要

本文介绍了退化蒸馏器,一种通过估计和平展费希尔信息矩阵来自动检测和解决物理模型中退化参数组合的方法,该方法减少了神经后验估计所需的模拟预算,同时提供物理洞察。

arXiv:2606.23838v1 公告类型:新 摘要:当两个或更多参数或标签产生相似数据时,它们是退化的或难以区分的。退化性使得标签预测和逆问题都变得困难,因为机器学习算法和概率采样器都依赖于数据及其关于参数的梯度的可区分性。然而,识别物理模型或真实世界数据集中的退化性可能有助于理解模型选择或产生数据的底层过程。我们提出了退化蒸馏器,一种方法,它(1)自动检测并(2)解决退化参数组合,(a)自动地且(b)符号化地,仅从参数-数据(或参数-模拟)对,通过估计和平展费希尔信息矩阵。通过探索似然的信息几何,我们将退化性表征为物理模型的内在属性,无需实际数据观测。我们在多种合成和真实世界问题上展示了我们的方法,发现了符号坐标变换,这些变换识别出模型中对数据产生独立影响的参数组合。所得的坐标在期望上全局地平展了费希尔信息,与仅在单点平展的后验方法形成对比,并显著减少了下游神经后验估计所需的模拟预算。在测试案例中,我们在匹配的验证校准下进行后验估计时,需要的模拟次数减少了多达$10\times$,同时获得了对系统的物理洞察。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:49

# 简并蒸馏器 来源:https://arxiv.org/html/2606.23838 T. Lucas Makinen¹,²,Deaglan J. Bartlett³,⁴,Niall Jeffrey⁵,⁶,Benjamin D. Wandelt⁷,⁸ ¹剑桥大学应用数学与理论物理系,英国剑桥CB3 0WA,Wilberforce路²帝国理工学院推断与宇宙学中心(ICIC),英国伦敦SW7 2AZ,Consort路3牛津大学天体物理学系,英国牛津OX1 3RH4法国国家科学研究中心(CNRS)&索邦大学巴黎天体物理研究所(IAP),UMR 7095,法国巴黎F-75014,Arago大道98 bis5伦敦大学学院物理与天文学系,英国伦敦WC1E 6BT6伦敦国王学院物理系与国王人工智能研究所,英国伦敦WC2R 2LS7约翰霍普金斯大学物理与天文学系,美国马里兰州巴尔的摩212188约翰霍普金斯大学应用数学与统计学系,美国马里兰州巴尔的摩21218 ###### 摘要 当两个或多个参数或标签产生相似的数据时,它们就是**简并**的,或难以区分。简并性使得标签预测和反问题都变得困难,因为机器学习算法和概率采样器都依赖于数据及其相对于参数的梯度的可区分性。然而,识别物理模型或真实世界数据集中的简并性,有助于阐明模型选择或产生数据的基本过程。我们提出了**简并蒸馏器**,一种能够(1)检测并(2)解析简并参数组合的方法,它(a)自动地且(b)符号地,仅从参数-数据(或参数-模拟)对出发,通过估计和展平Fisher信息矩阵来实现。通过探索似然的信息几何,我们将简并性表征为物理模型的内在属性,无需实际观测数据。我们在一系列合成和真实世界问题上演示了我们的方法,发现了符号化的坐标变换,这些变换识别出模型中产生对数据独立影响的参数组合。所得到的坐标在**全局**范围内(期望上)展平了Fisher信息,这与仅在单一点展平的后验方法形成对比,并显著减少了下游神经后验估计所需的模拟预算。在测试案例中,我们最多可减少**10×**的模拟次数,同时在匹配的验证校准下进行后验估计,并获得对系统的物理洞察。 ## 1 引言 许多科学模型由一组变量参数化,但它们的预测往往以高度非平凡的方式依赖于这些变量,不同的参数变化会产生相似或无法区分的效应。因此,单个参数的变化可能对观测值产生相关效应,模型主要响应特定的参数组合,而非每个独立参数。在这种情况下,我们说参数空间中存在**简并性**。识别这些方向对于统计和实践原因都至关重要。从推断的角度看,将坐标与灵敏度方向对齐可以改善条件数,使似然或后验探索与优化显著更高效。它还能通过揭示实际控制观测值的参数组合(而非依赖任意坐标选择)来提供物理洞察。通过解析预测实际变化的方向,可以更精确地捕捉参数-数据关系,避免冗余。这对计算成本有直接影响:模拟可以针对信息丰富的方向进行,而不是浪费在产生难以区分输出的简并方向上。最后,这种结构有助于构建更具信息性的先验,这些先验以有意义的参数组合定义,而非对齐不良的单个参数。 这种行自然会通过Fisher信息来刻画,它定义了参数上的几何,通常是高度各向异性且病态的。在解析可控的设置中,有时可以手工识别出合适的重新参数化。然而,在更复杂或计算密集的模型中,这变得不可行,从而促使需要系统性的、数据驱动的方法。在本工作中,我们开发了一种发现全局重新参数化的方法,以正则化这种几何,得到在参数空间上Fisher信息近似各向同性的坐标。**简并蒸馏器**从参数-数据对中映射系统的信息几何,并发现一个以系统原始参数表示的符号化参数化,使得Fisher矩阵尽可能接近单位矩阵。如图~[1](https://arxiv.org/html/2606.23838#S1.F1)概述,我们通过三个主要步骤实现这一点:(i) 使用神经网络估计各处的信息几何;(ii) 学习展平Fisher几何并确保唯一解的神经坐标;(iii) 找到近似这些神经坐标并合并同类项的非线性符号表达式。蒸馏器的输出因此是一个去除原始参数化中固有简并性的坐标变换。 ##### 贡献。 (i) 我们引入了一个三阶段流水线,仅从模拟中推断参数空间全局的Fisher度量,并用它来学习一个符号化的、可逆的重新参数化,以展平Fisher信息。(ii) 我们提供了Fisher矩阵和展平坐标的集成估计器,以及一个对齐方案,用于修正展平损失的残余常数偏移和正交对称性(见附录~B (https://arxiv.org/html/2606.23838#A2))。(iii) 我们在两个已知几何的合成问题上验证了该方法(Rosenbrock和一维高斯),其中解析平坦坐标和测地线法坐标作为基准。(iv) 我们将蒸馏器应用于四个科学问题——SIR流行病动力学、引力波爆发波形、来自昂贵暗物质模拟的弱引力透镜宇宙学,以及一个工业加热器控制问题——每个问题都旨在探测非线性、维度和先验知识的不同领域。(v) 我们证明了所得坐标降低了下游神经后验估计所需的模拟预算,同时保持校准覆盖率。 我们简要回顾了第~2节 (https://arxiv.org/html/2606.23838#S2)中的相关文献,然后在第~3节 (https://arxiv.org/html/2606.23838#S3)中描述了信息几何的原理。我们在第~4节 (https://arxiv.org/html/2606.23838#S4)中详细介绍了简并蒸馏器流水线,然后在第~5节 (https://arxiv.org/html/2606.23838#S5)中将其与合成示例进行验证并应用于科学问题。我们在第~6节 (https://arxiv.org/html/2606.23838#S6)中讨论局限性并总结。完整的实验、架构和理论细节见附录。 参见标题图1:简并蒸馏器流水线分为三步。(1) 参数-数据对\(θ,x\)被传递给一个Fishnet网络集成,以学习每个参数值处Fisher矩阵的近似。(2) 训练一个“展平器”网络,使其雅可比矩阵将学习到的度量映射为单位矩阵,作为θ的函数。(3) 对每个输出η坐标执行符号回归,以获得简短、非线性、消除简并的表达式。 ## 2 相关工作 ##### Sloppy模型。 “Sloppy”模型描述了多参数非线性系统的一个常见特征:预测强烈依赖于少数参数组合,而对许多其他组合不敏感。这反映在Fisher信息矩阵的特征值跨越多个数量级,产生高度各向异性的参数几何和“超带”模型流形[15 (https://arxiv.org/html/2606.23838#bib.bib69),41 (https://arxiv.org/html/2606.23838#bib.bib70),40 (https://arxiv.org/html/2606.23838#bib.bib68)]。Gutenkunst等人[15 (https://arxiv.org/html/2606.23838#bib.bib69)]将Fisher信息解释为黎曼度量,利用其特征结构区分刚性和软性方向,并解释准确预测如何与约束较差的参数共存。精确或近似的简并性被显式处理,要么作为灵敏度消失的方向,要么通过诸如流形边界近似方法(MBAM)等降阶方法,在流形边界处坍缩这些方向[42 (https://arxiv.org/html/2606.23838#bib.bib71)]。 ##### 局部共形自编码器和内在坐标。 LOCA方法[36 (https://arxiv.org/html/2606.23838#bib.bib73)]和Evangelou等人[12 (https://arxiv.org/html/2606.23838#bib.bib72)]也构建了从非线性观测映射中消除冗余的内在坐标,但未显式使用基于似然的几何。LOCA在数据空间中强制执行局部白化,归一化回拉度量,并产生在光滑观测变换下(除了共形因子)不变的坐标。Evangelou等人[12 (https://arxiv.org/html/2606.23838#bib.bib72)]而是通过分析参数到观测的映射来识别决定输出的参数组合,将预测方向与水平集分开。两者都是数据驱动的,侧重于消除不可识别方向,而非展平信息度量。它们产生适应模型流形的坐标,而我们的方法旨在正则化参数空间上的Fisher几何。 ##### 几何变分推断与后验重新参数化。 几何变分推断(geoVI)[13 (https://arxiv.org/html/2606.23838#bib.bib74)]也使用Fisher信息,但它是局部的:它构建后验特定的坐标,在后验附近展平几何,从而实现高斯近似。我们的方法则提供独立于数据的全局、模型内在的重新参数化。类似地,Dacunha等人[10 (https://arxiv.org/html/2606.23838#bib.bib75)]学习全局密度模型以推导局部Fisher几何,并将参数分解为受约束和不受约束的方向。这也是后验特定的,而我们的方法是全局的;此外,他们的坐标是神经网络的,而我们通过符号回归使用显式解析形式。 ##### 符号回归与信息几何先验。 我们流水线的符号组件建立在**operon**[9 (https://arxiv.org/html/2606.23838#bib.bib77),26 (https://arxiv.org/html/2606.23838#bib.bib76)]和基于最小描述长度选择的符号回归准则[4 (https://arxiv.org/html/2606.23838#bib.bib30),3 (https://arxiv.org/html/2606.23838#bib.bib31)]之上。据我们所知,这是第一个将基于模拟的Fisher估计与所得度量的全局符号展平相结合的方法。 ## 3 理论基础 考虑一个模型,它产生n_x个数据点x,由n_θ个参数θ控制。似然p(x|θ)描述了在特定参数值下产生的数据概率分布。较高的似然值表示通过θ对数据更好的模型描述。两个点θ_1和θ_2之间的Kullback–Leibler(KL)散度描述了选择θ_1描述数据比θ_2可能性大多少: D_KL(θ_1 || θ_2) = ∫ dx p(x|θ_1) (log p(x|θ_1) − log p(x|θ_2)). (1) 这不满足三角不等式,也不对称,使其成为不良的距离度量选择。然而,Rao [37 (https://arxiv.org/html/2606.23838#bib.bib38)]的洞察来自于考虑从一个点θ出发的非常小的偏差θ+δθ。这里,KL散度简化为: D_KL(θ || θ+δθ) = 1/2 F_{ab} δθ^a δθ^b + O(δθ^3), (2) 其中Fisher信息度量F(θ)定义为: F_{ab}(θ) = E_{p(x|θ)} [∂_a log p(x|θ) ∂_b log p(x|θ)] = −E_{p(x|θ)} [∂_a ∂_b log p(x|θ)]. (3) 这个对称正半定矩阵量化了似然在参数空间中的局部曲率,并定义了参数流形上的黎曼度量——即统计流形。该度量的坐标变换遵循标准的张量变换规则:若η = f(θ),则在新坐标下的Fisher信息为: F'_{ab}(η) = (J^{-1})_{ac} F_{cd}(θ) (J^{-1})_{bd}, (4) 其中J_{ac} = ∂η_a/∂θ_c是雅可比矩阵。这允许我们通过寻找使得F'近似为单位矩阵的变换f来“展平”信息几何。我们接下来描述如何从模拟中学习这种变换。

相似文章

物理序列建模中错误泛化的机制

arXiv cs.LG

本文识别并分析了生成序列模型中的“物理错误泛化”现象,即单个轨迹看似合理,但物理量的整体分布却不正确,并提出了一种基于核的缓解方法。

模型合并作为微调参数空间中的概率推理

arXiv cs.LG

本文将模型合并视为在专家乘积场景下的概率推断,表明现有方法是其特例,并提出一种重尾柯西专家设计,能更准确地捕捉实际残差行为,在多个任务和架构上相对于现有最优基线取得了显著改进。

利用主动学习构建集成热能系统的基于物理的数字孪生

arXiv cs.LG

本文提出了一种主动学习框架,将高保真 Modelica 仿真与更简单的代理模型(SINDyC、FNN、GRU)相结合,以创建高效的热能分配系统数字孪生。该方法在保持预测精度和实现不确定性量化的同时,显著减少了所需的仿真轨迹数量。