架构影响隐式神经表征中的迁移特异性

arXiv cs.LG 论文

摘要

本文研究了SIREN、ReLU MLP和傅里叶特征MLP中隐式神经表征的迁移特异性,发现迁移幅度和特异性依赖于架构,其中ReLU更具选择性,而SIREN广泛重用权重。结果表明,架构选择应考虑显式的控制条件,而不仅仅是迁移幅度。

arXiv:2606.06827v1 公告类型:新 摘要:坐标网络中的迁移通常通过冷启动增益来度量,但该增益是反映源特定结构还是通用权重重用尚不明确。本文通过受控分析测试、2D方腔驱动Navier-Stokes基准问题以及1D PDE参考解套件(热方程、粘性Burgers方程和聚焦三次NLS),研究了三个隐式神经表征(INR)族(SIREN、ReLU MLP和傅里叶特征MLP)中的这一问题。分析测试使用独立种子的随机对照,而PDE基准则使用同族替代源控制及辅助消融实验。 在所有设定中,迁移幅度和迁移特异性明显分离。在10种子的受控1D几何测试中,傅里叶特征显示出最大的结构化迁移($33.1\times$),其次是SIREN($23.0\times$)和ReLU($10.7\times$),但ReLU的选择性远高于其他:ReLU的随机控制迁移为$0.41\times$,而SIREN为$14.24\times$。在受控双参数1D族中,排名发生变化:默认设定下ReLU给出了最清晰的结构化-对照分离,而傅里叶特征仅在带宽重新调整后有所改善。在Navier-Stokes和更广泛的1D PDE套件中,没有任何单一架构在所有方程中占主导地位,但相同模式依然存在:SIREN通常广泛重用权重,而ReLU以及某些方程中的傅里叶特征更具源选择性。静态诊断仍然较弱,且启发式标度律$A_{\text{transfer}} \propto 1/\Delta t^2$在实施的1D审计中被拒绝。 这些结果将迁移特异性定位为坐标网络的有用诊断,并表明科学机器学习中的架构选择应在显式控制条件下评估,而非仅凭迁移幅度。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:18

# Architecture Shapes Transfer Specificity in Implicit Neural Representations 来源: https://arxiv.org/html/2606.06827 ###### 摘要 坐标网络中的迁移通常通过热启动增益来衡量,但这种增益是反映了源特定结构还是通用的权重复用,尚不明确。我们通过受控分析测试、二维顶盖驱动方腔纳维-斯托克斯基准测试以及一维热方程、粘性伯格斯方程和聚焦三次非线性薛定谔方程偏微分方程参考解套件,研究了三种隐式神经表示(INR)族:SIREN、ReLU MLP 和傅里叶特征 MLP。分析测试使用独立种子随机控制,而偏微分方程基准测试使用同族替代源控制和辅助消融实验。在不同设置下,迁移幅度和迁移特异性明显分离。在 10 种子控制的 1D 几何测试中,傅里叶特征显示出最大的结构化迁移(33.1×),其次是 SIREN(23.0×)和 ReLU(10.7×),但 ReLU 的选择性高得多:ReLU 的随机控制迁移为 0.41×,而 SIREN 为 14.24×。在受控的双参数 1D 族上,排名发生变化:在默认设置下,ReLU 给出了最清晰的结构化与对照分离,而傅里叶特征仅在带宽重调后有所改善。在纳维-斯托克斯和更广泛的 1D 偏微分方程套件中,没有单一架构在所有方程中占据主导,但同样的模式仍然存在:SIREN 通常广泛复用权重,而 ReLU 以及在某些方程中的傅里叶特征则更具源选择性。静态诊断仍然薄弱,启发式标度律 A_transfer ∝ 1/Δt² 在实施的 1D 审计中被拒绝。这些结果将迁移特异性定位为坐标网络的有用诊断指标,并表明在科学机器学习中选择架构时应通过明确的控制条件进行评估,而不仅仅是看迁移幅度。 关键词: 隐式神经表示;迁移学习;坐标网络;科学机器学习;偏微分方程;谱偏差 ## 1 引言 坐标网络,通常称为隐式神经表示(INR),将连续信号编码为坐标的神经函数。在科学机器学习中,它们作为独立于网格的替代模型具有吸引力:一旦训练完成,可以在任意坐标处求值,对输入求导,并在稳态或时变场之间复用。更广泛地说,它们处于科学机器学习向可复用替代求解器、降阶模型和偏微分方程控制系统的算子近似推进的浪潮中(Brunton and Kutz, 2024 (https://arxiv.org/html/2606.06827#bib.bib6))。同时,架构选择会引发不同的谱偏差、频率偏好和优化动力学,从正弦网络到傅里叶特征 MLP 和普通 ReLU 坐标网络(Essakine et al., 2025 (https://arxiv.org/html/2606.06827#bib.bib28); Sitzmann et al., 2020 (https://arxiv.org/html/2606.06827#bib.bib29); Tancik et al., 2020 (https://arxiv.org/html/2606.06827#bib.bib33); Müller et al., 2022 (https://arxiv.org/html/2606.06827#bib.bib34))。 大多数 INR 架构之间的比较都集中在重建误差或下游替代模型准确性上。然而,对于参数化工作流程,更具启发性的问题可能是迁移:如果坐标网络已经在一个参数值上训练过,那么在邻近参数上进行微调何时有帮助,并且这种增益是特定于目标族还是通用的权重复用?按此框架,该问题也是一个关于预训练神经权重实际上携带了哪些与相关任务相关的信息的迁移学习问题(Pan and Yang, 2010 (https://arxiv.org/html/2606.06827#bib.bib5))。这个问题在降阶和摊销求解器设置中很重要,因为预训练的目的是在多个相关目标上复用学习到的表示,而不是从头拟合每个实例。 在此,我们将迁移行为本身作为研究对象。我们在受控分析测试、二维纳维-斯托克斯顶盖驱动方腔基准测试以及一维热方程、伯格斯方程和聚焦三次 NLS 偏微分方程参考解套件上比较了 SIREN、ReLU MLP 和傅里叶特征 INR。分析测试使用独立种子随机控制来分离结构化迁移与偶然复用,而偏微分方程基准测试使用同族替代源控制和辅助消融实验来测试相同的架构模式是否在更现实的设置中存活。我们的目标是诊断性的,而非架构性的。我们*不*提出新的条件求解器、神经算子或物理信息训练方案。相反,我们使用迁移幅度和迁移特异性作为在固定优化协议下表示连续性的互补探针。核心问题是:INR 架构如何控制迁移量以及该迁移在分析和偏微分方程族中的源特异性?预期的输出是实践指导,用于在迁移(而非仅单任务准确性)是主要关注点时选择坐标网络架构。 ### 1.1 主要发现与贡献 我们的研究有四个主要贡献: 1. 我们提出了一个统一的迁移研究,涵盖受控分析测试和偏微分方程基准测试。相同的三个 INR 族在明确的控制条件下进行评估:一维几何族、受控双参数一维族、纳维-斯托克斯顶盖驱动方腔基准测试,以及热方程、伯格斯方程和 NLS 的一维偏微分方程参考解套件。 2. 架构对迁移特异性的控制不亚于对迁移幅度的控制。在受控的一维几何测试中,傅里叶特征的结构化迁移最大,但 ReLU 在独立种子随机控制下选择性高得多,而 SIREN 即使在随机目标上也能强迁移。 3. 架构排名在不同任务族中并不普遍。ReLU 在受控双参数族和纳维-斯托克斯上是最清晰的判别器,而热/伯格斯/NLS 套件显示,即使幅度与特异性之间的区别依然存在,绝对迁移排名因方程而异。 4. 显式的零模型很重要,而简单的静态诊断仍然薄弱。独立随机控制、替代源控制和打乱权重控制会显著改变迁移增益的解释。相比之下,参与比、Hessian 锐度和独立种子 CKA 无法可靠地区分结构化复用和弱特异性复用,启发式标度律 A ∝ 1/Δt² 在实施的一维审计中被拒绝。 ## 2 相关工作 ### 2.1 经典与神经参数化偏微分方程替代模型 降阶建模与经典替代模型。基于投影的 ROM、POD/Galerkin 方法和约化基近似是重复参数化偏微分方程求解的标准工具,特别是当昂贵的离线阶段后需要多次查询时(Berkooz et al., 1993 (https://arxiv.org/html/2606.06827#bib.bib38); Benner et al., 2015 (https://arxiv.org/html/2606.06827#bib.bib39); Quarteroni et al., 2015 (https://arxiv.org/html/2606.06827#bib.bib40))。其离线-在线结构在概念上接近此处研究的迁移问题:投资于可复用的表示,并希望降低后续参数评估的成本。我们的 INR 设置表示类别不同。我们不投影到线性约化基或手工构建的多项式基,而是将坐标网络拟合到参考场,并询问其学习到的权重是否跨参数提供了有用且依赖架构的热启动。 参数化 PINN。参数化和参数条件 PINN 旨在通过学习将物理参数作为网络输入或潜变量,来学习连续的偏微分方程解族。最近的 P2INN 风格架构引入了模块化或潜编码的参数表示,提高了参数化偏微分方程的准确性和效率(Cho et al., 2024 (https://arxiv.org/html/2606.06827#bib.bib1); Zhang et al., 2025 (https://arxiv.org/html/2606.06827#bib.bib3))。相关的纳维-斯托克斯和 RANS 研究展示了参数条件训练在流体系统中的潜力和局限性(Jangir et al., 2026 (https://arxiv.org/html/2606.06827#bib.bib2); Ghosh et al., 2023 (https://arxiv.org/html/2606.06827#bib.bib7)),而 GPT-PINN 则使用元学习策略,通过组合预训练的基础 PINN 来实现连续参数迁移(Chen and Koohy, 2024 (https://arxiv.org/html/2606.06827#bib.bib4))。这些方法设计明确的参数嵌入以鼓励连续性;相比之下,我们保持 INR 架构最小化,并使用跨参数的迁移行为作为探针,探究在没有条件化的情况下产生了多少连续性。 PINN 中的几何与域迁移。最近的 PINN 迁移研究包括带有边界感知预训练的模块化微调方案、轻量级几何特定校正层,以及跨不同边界条件、几何形状和材料分布的低秩适应(Li et al., 2025 (https://arxiv.org/html/2606.06827#bib.bib8); Roy, 2025 (https://arxiv.org/html/2606.06827#bib.bib9); Wang et al., 2025 (https://arxiv.org/html/2606.06827#bib.bib10))。其他工作将不规则几何编码为潜变量用于物理信息替代模型,或通过 PINN 损失景观研究迁移(Oldenburg et al., 2022 (https://arxiv.org/html/2606.06827#bib.bib11); Liu et al., 2023 (https://arxiv.org/html/2606.06827#bib.bib12))。这些研究量化了迁移在跨几何或材料时何时有用,但它们并未跨架构比较简单的 INR 坐标网络,也未使用独立种子随机控制来区分真正的目标族连续性与偶然的权重复用。 DeepONet 和傅里叶神经算子。诸如神经算子、DeepONet 和傅里叶神经算子等算子学习架构旨在学习整个偏微分方程族的解算子,而不是微调单独的坐标网络(Kovachki et al., 2023 (https://arxiv.org/html/2606.06827#bib.bib16); Lu et al., 2021 (https://arxiv.org/html/2606.06827#bib.bib14); Li et al., 2021 (https://arxiv.org/html/2606.06827#bib.bib19))。物理信息 DeepONet 添加了偏微分方程残差惩罚,以学习无需配对输入-输出数据的参数化解算子(Wang et al., 2021 (https://arxiv.org/html/2606.06827#bib.bib13))。FNO 变体,包括学习变形 FNO 和分解 FNO,通过傅里叶域核参数化解映射,并在偏微分方程基准测试上展现出与分辨率无关的性能(Li et al., 2023 (https://arxiv.org/html/2606.06827#bib.bib15); Tran et al., 2021 (https://arxiv.org/html/2606.06827#bib.bib20))。更近期的算子学习扩展包括用于通用初/边界条件迁移的物理信息 Transformer 神经算子,以及用于可变域的几何感知 Transformer 算子(Boya and Subramani, 2024 (https://arxiv.org/html/2606.06827#bib.bib17); Chen et al., 2026 (https://arxiv.org/html/2606.06827#bib.bib18))。这些方法为参数化偏微分方程提供了强大的替代方案;我们关注的是补充性的,即简单的 INR 族在朴素的源到目标微调下已经编码了多少结构。 ### 2.2 INR 架构与多尺度表示 SIREN、谱偏差与初始化。SIREN 引入了周期激活函数用于 INR,并展示了正弦网络非常适合表示复杂信号及其导数(Sitzmann et al., 2020 (https://arxiv.org/html/2606.06827#bib.bib29))。后续工作研究了周期网络的谱支持和初始化如何影响优化。例如,WINNER 使用目标信号谱质心缩放的噪声扰动均匀初始化的权重,而 FINER 通过可变周期激活函数控制谱偏差(Chandravamsi et al., 2025 (https://arxiv.org/html/2606.06827#bib.bib31); Liu et al., 2024 (https://arxiv.org/html/2606.06827#bib.bib32))。这些结果暗示,当 SIREN 类网络的频率支持与目标族对齐时,它们可能强复用权重,但若该复用缺乏特异性,也可能广泛迁移。架构先验的主导地位并非迁移特有:在另一个科学机器学习领域,当使用 SIREN 风格的坐标网络逼近五次 Calabi-Yau 度量时,几何先验而非坐标网络本身主导精度(Eng, 2026 (https://arxiv.org/html/2606.06827#bib.bib30)),这补充了我们关注架构如何塑造迁移而非单任务精度的重点。 傅里叶特征与 NTK 带宽。傅里叶特征映射将 MLP 的有效神经正切核转化为具有可调带宽的平稳核,使 MLP 能够拟合标准 ReLU 网络难以学习的高频函数(Tancik et al., 2020 (https://arxiv.org/html/2606.06827#bib.bib33))。这为解释依赖架构的迁移提供了理论视角:如果复用依赖于谱对齐,那么当特征带宽与目标族匹配时,傅里叶特征 MLP 可能强迁移,但当带宽不匹配时,可能会失去幅度或特异性。 多分辨率与条件 INR。Instant-NGP 和相关多分辨率编码通过可训练的特征网格或哈希表增强坐标网络,通过从粗到细的空间特征实现快速优化和局部细节(Müller et al., 2022 (https://arxiv.org/html/2606.06827#bib.bib34); Wang et al., 2024 (https://arxiv.org/html/2606.06827#bib.bib35); Luo, 2025 (https://arxiv.org/html/2606.06827#bib.bib36))。在流体和偏微分方程设置中,神经隐式流、DINo、条件神经场以及相关的物理增强 INR 使用超网络、潜动力学、FiLM 风格条件、概率残差目标或 Transformer 增强坐标编码来改善参数化泛化和不确定性量化(Pan et al., 2023 (https://arxiv.org/html/2606.06827#bib.bib21); Yin et al., 2023 (https://arxiv.org/html/2606.06827#bib.bib22); Kim et al., 2024 (https://arxiv.org/html/2606.06827#bib.bib23); Najian Asl et al., 2026 (https://arxiv.org/html/2606.06827#bib.bib25); Chatzopoulos and Koutsourelakis, 2024 (https://arxiv.org/html/2606.06827#bib.bib26); Shen et al., 2025 (https://arxiv.org/html/2606.06827#bib.bib27))。元学习也已被用于在信号族间摊销 INR 拟合,例如通过快速适应未见目标的稀疏元初始化(Lee et al., 2021 (https://arxiv.org/html/2606.06827#bib.bib24))。这些架构明确设计用于促进跨实例泛化。我们的实验特意使用更简单的 SIREN、ReLU 和傅里叶特征 INR,以测量即使没有这些机制的情况下,迁移幅度和迁移特异性会如何出现。 ## 3 方法 ### 3.1 受控测试族与偏微分方程基准测试 受控一维几何测试族:族 g_t(x) = sqrt(x² + t²) 是一个解析的非偏微分方程目标,用于在接近形成尖点的情况下压力测试依赖架构的迁移。它在 t>0 时光滑,并在 t→0 时趋近于 |x|。该实验是一个受控诊断测试,而非物理偏微分方程计算。 受控双参数一维测试族:我们使用指数阻尼余弦模式定义了一个双参数*一维目标函数族*:c_n(x, y

相似文章

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。

广义神经元

ML at Berkeley

本文探讨了深度学习中的通用近似定理,分析了使用 ReLU 激活函数时单个神经元和神经网络层的表示能力。

架构而非规模:大语言模型中的电路局部化

arXiv cs.CL

本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。