几何科爾莫戈羅夫-阿諾德網絡 (GeoKAN)

arXiv cs.LG 论文

摘要

本文介紹了幾何科爾莫戈羅夫-阿諾德網絡 (GeoKAN),這是一個幾何感知模型家族,通過學習黎曼度量來適應坐標,從而實現更優函數近似和物理感知學習。

arXiv:2605.06740v1 發布類型:新文章 摘要:我們提出了幾何科爾莫戈羅夫-阿諾德網絡 (GeoKANs),這是一個幾何感知型的KAN模型家族,在這種模型中,近似是在學習到的、幾何適配坐標中執行的,而不是在固定的歐幾里得輸入坐標中。GeoKAN 通過學習一個對角黎曼度量,在基底展開和特徵混合之前對輸入進行扭曲,從而實現了這一目標。所學習的度量通過局部長度縮放和體積變形提供了幾何誘導偏差,在物理感知場景中,它還會影響模型觀察到的微分結構。在這一框架內,我們開發了三個主要變種,分別為 GeoKAN-NNMetric、GeoKAN-$\gamma$ 和 LM-KAN。對於 LM-KAN,我們進一步考慮了三個基於特定基的版本:LM-KAN-RBF、LM-KAN-Wav 和 LM-KAN-Fourier。這些變種使我們能夠將幾何感知 KAN 模型作為一般函數近似器以及物理感知學習中的代理模型進行研究。通過拉伸變化劇烈的區域並壓縮較為平滑的區域,GeoKAN 以任務依賴的方式重新分配表示分辨率,使模型能夠將容量分配到最需要的地方。因此,GeoKAN 非常適合科學機器學習和微分方程問題中產生的尖銳、剛性、局部化以及強非均勻 regime(狀態/區域)。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 06:46

# 几何型 Kolmogorov–Arnold 网络 (GeoKAN)

来源:https://arxiv.org/html/2605.06740

Abhijit Sen https://orcid.org/0000-0003-2783-1763<sup>1*</sup>, Bikram Keshari Parida https://orcid.org/0000-0003-1204-357X<sup>1*</sup>, Giridas Maiti https://orcid.org/0000-0002-7813-6480<sup>2</sup>, Mahima Arya https://orcid.org/0000-0002-1847-9705<sup>1</sup>, Denys I\. Bondar https://orcid.org/0000-0002-3626-4804<sup>1</sup>

<sup>1</sup> 美国路易斯安那州新奥尔良市 Tulane University 物理与工程物理系,邮编 70118\.
<sup>2</sup> 德国卡尔斯鲁厄理工学院应用地球科学研究所,邮编 76131\.

{asen1, bparida, dbondar}@tulane\.edu
*同等贡献*

###### 摘要

我们提出了*几何型 Kolmogorov–Arnold 网络*(GeoKANs),这是一类具备几何感知能力的 KAN 型模型。在该模型中,近似过程是在学习到的、适应几何结构的坐标系中进行的,而不是在固定的欧几里得输入坐标系中进行。GeoKAN 通过学习一个对角黎曼度量(Riemannian metric)来实现这一目标,该度量在基函数展开和特征混合之前对输入进行扭曲。学习到的度量通过局部长度缩放和体积畸变提供了几何归纳偏置,并且在物理信息设置下,它还会影响模型所观察到的微分结构。在该框架内,我们开发了三个主要变体,即 *GeoKAN-NNMetric*、*GeoKAN-$\gamma$* 和 *LM-KAN*。对于 *LM-KAN*,我们进一步考虑了三种特定于基函数的版本:*LM-KAN-RBF*、*LM-KAN-Wav* 和 *LM-KAN-Fourier*。这些变体使我们能够研究几何感知 KAN 模型,既作为通用的函数近似器,也作为物理信息学习中的代理模型。通过拉伸变化剧烈的区域并压缩更平滑的区域,GeoKAN 以依赖于任务的方式重新分配表示分辨率,使模型能够将容量放置在最需要的地方。因此,GeoKAN 非常适合科学机器学习和微分方程问题中出现的尖锐、刚性、局部化以及强非均匀区域。代码可在 https://github.com/AI-and-Quantum-Computing/GeoKAN 获取。

*关键* 词 KAN $\cdot$ 几何型 KAN $\cdot$ 深度学习 $\cdot$ PINN $\cdot$ PIKAN $\cdot$ LM-KAN $\cdot$ 机器学习

## 1 引言

最近,Kolmogorov–Arnold 网络(KAN)作为一种有前景的替代方案,取代了标准的多层感知机 \[25 (https://arxiv.org/html/2605.06740#bib.bib18)\]。KAN 的动机来自 Kolmogorov–Arnold 表示定理,该定理表明多元连续函数可以通过单变量函数的和与复合来表示 \[20 (https://arxiv.org/html/2605.06740#bib.bib25), 8 (https://arxiv.org/html/2605.06740#bib.bib24)\]。与普通神经网络使用固定的激活函数不同,KAN 采用可学习的非线性函数,这使其在近似方面具有更大的灵活性 \[25 (https://arxiv.org/html/2605.06740#bib.bib18)\]。因此,KAN 在函数近似和微分方程数值解方面展现出了令人鼓舞的性能 \[42 (https://arxiv.org/html/2605.06740#bib.bib1), 19 (https://arxiv.org/html/2605.06740#bib.bib2), 36 (https://arxiv.org/html/2605.06740#bib.bib3)\]。特别是,基于 KAN 的物理信息模型表明,它们通常比标准神经网络更准确地捕捉微分方程的解 \[42 (https://arxiv.org/html/2605.06740#bib.bib1), 36 (https://arxiv.org/html/2605.06740#bib.bib3), 30 (https://arxiv.org/html/2605.06740#bib.bib62), 35 (https://arxiv.org/html/2605.06740#bib.bib64)\]。

尽管具有这种灵活性,大多数现有的 KAN 模型仍然在固定的坐标系中运行。它们的基函数是可学习的,但仍在原始输入坐标上直接评估。当目标函数在域上高度不均匀时,这可能成为一个局限性。在许多问题中,特别是在科学计算中,解在某些区域是平滑的,而在其他区域(例如在激波附近、薄界面、尖锐峰值或边界层处)则变化迅速 \[30 (https://arxiv.org/html/2605.06740#bib.bib62), 35 (https://arxiv.org/html/2605.06740#bib.bib64)\]。在这种情况下,固定表示可能在简单区域消耗过多容量,而在困难区域投入不足。这一局限性激发了本文的主要思想。我们不仅学习近似,还学习输入空间的几何结构。为此,我们引入了*几何型 KAN*(GeoKAN),这是一类几何感知 KAN 模型,其中输入首先由学习到的度量进行扭曲,然后在适应几何的坐标系中构建表示。通过这种方式,模型可以拉伸目标困难区域并压缩平滑区域,从而在整个域上更有效地分配表示分辨率。

GeoKAN 框架根据度量的参数化方式以及后扭曲特征的构建方式,产生了几个变体。在本工作中,我们介绍了 GeoKAN 的三个主要变体。(1)*GeoKAN-NNMetric* 从完整输入中学习耦合度量,并将其与局部小波字典相结合。(2)*GeoKAN-$\gamma$* 使用更具结构化的可分离度量,并从学习到的缩放及其局部变化中构建显式的几何特征。(3)*学习度量 KAN*(LM-KAN)使用耦合的学习度量以及局部化的后扭曲基函数,并在后文考虑的物理信息设置中作为主要的几何感知代理模型。

我们首先通过匹配容量的曲线拟合基准在监督函数近似设置中应用 GeoKAN。这使得在引入微分方程残差、边界条件或初始条件之前,评估架构的表示行为成为可能。通过这种方式,曲线拟合实验测试了几何感知 KAN 模型是否在对具有振荡、局部化、不连续或多尺度结构的目标提供内在的近似优势。然后,我们使用 GeoKAN 构建物理信息模型。物理信息神经网络(PINNs)提供了一种广泛用于求解微分方程的框架,通过直接将控制方程纳入损失函数 \[32 (https://arxiv.org/html/2605.06740#bib.bib4)\]。自引入以来,PINNs 已扩展到许多类别的问题,包括分数阶方程、积分微分方程和随机偏微分方程 \[10 (https://arxiv.org/html/2605.06740#bib.bib7), 29 (https://arxiv.org/html/2605.06740#bib.bib8), 43 (https://arxiv.org/html/2605.06740#bib.bib9), 28 (https://arxiv.org/html/2605.06740#bib.bib10)\]。尽管取得了这些进展,PINNs 仍面临若干挑战,包括优化不稳定性、对超参数的敏感性以及处理具有尖锐梯度、激波或边界层的解的困难 \[21 (https://arxiv.org/html/2605.06740#bib.bib13), 17 (https://arxiv.org/html/2605.06740#bib.bib14), 14 (https://arxiv.org/html/2605.06740#bib.bib15), 12 (https://arxiv.org/html/2605.06740#bib.bib16)\]。因此,提出了一些补救措施以改善其鲁棒性和训练行为 \[41 (https://arxiv.org/html/2605.06740#bib.bib17)\]。一个最近的方向是用 KAN 型模型替换标准的多层感知机代理,从而产生物理信息 KAN 模型,通常称为 PIKAN \[36 (https://arxiv.org/html/2605.06740#bib.bib3), 30 (https://arxiv.org/html/2605.06740#bib.bib62), 35 (https://arxiv.org/html/2605.06740#bib.bib64)\]。在该设置下,我们使用更广泛的 GeoKAN 家族中的 *LM-KAN* 变体作为物理信息代理。训练框架仍然是标准的基于残差的框架,但代理现在学习依赖于任务的度量,并在适应度量的坐标系中评估其局部基表示。这允许与基于现有 KAN 变体的早期 PIKAN 模型进行直接比较,同时保持周围的物理信息方法基本不变。

总而言之,这项工作展示了 GeoKAN 在两个层面的贡献。曲线拟合基准测试了其孤立的近似特性。物理信息实验测试了相同的几何感知机制是否在实践中改善了微分方程的求解。论文的其余部分组织如下。第 2 节 (https://arxiv.org/html/2605.06740#S2) 回顾了 KAN 架构的背景。第 3 节 (https://arxiv.org/html/2605.06740#S3) 介绍了 GeoKAN 框架及其主要变体,以及学习到的度量在适应几何的表示中的作用。第 4 节 (https://arxiv.org/html/2605.06740#S4) 研究了匹配容量的数据拟合基准,以隔离模型的近似行为。第 5 节 (https://arxiv.org/html/2605.06740#S5) 随后转向物理信息学习,并将 LM-KAN 代理与早期 PIKAN 模型进行比较。最后,第 6 节 (https://arxiv.org/html/2605.06740#S6) 总结了主要结论并讨论了可能的未来方向。

## 2 KAN 架构简要概述

在介绍 Kolmogorov–Arnold 网络(KANs)之前,我们简要回顾标准深度神经网络(DNN),包括多层感知机(MLP),其近似能力在经典上由通用近似定理证明。在一种标准形式中,如果 $\sigma$ 是一个连续的 Sigmoidal 激活函数,则形式为

$$
k(\mathbf{x}) = \sum_{j=1}^{N} \alpha_j \, \sigma\!\left(\mathbf{w}_{j}^{T}\mathbf{x} + b_{j}\right), \qquad \mathbf{x}, \mathbf{w}_{j} \in \mathbb{R}^{n}, \; \alpha_{j}, b_{j} \in \mathbb{R}, \quad (1)
$$

的函数在 $[0,1]^{n}$ 上的连续函数空间中是稠密的 \[11 (https://arxiv.org/html/2605.06740#bib.bib19)\]。因此,对于任何连续目标函数 $\sigma(\mathbf{x})$ 和任意 $\varepsilon > 0$,存在这样一个网络满足

$$
\| k(\mathbf{x}) - \sigma(\mathbf{x}) \| < \varepsilon \quad (2)
$$

在给定的紧域上 \[15 (https://arxiv.org/html/2605.06740#bib.bib21), 16 (https://arxiv.org/html/2605.06740#bib.bib22)\]。这一结果为使用足够宽的前馈网络来近似非线性映射提供了理论基础。

在标准前馈网络中,每个神经元首先形成其输入的仿射组合,然后应用固定的非线性激活(图 1 (https://arxiv.org/html/2605.06740#S2.F1))。因此,如果 $\{x_i\}_{i=1}^n$ 是输入,权重为 $\{w_i\}_{i=1}^n$ 且偏置为 $b$,则神经元计算

$$
z = \sum_{i=1}^{n} w_i x_i + b, \quad (3)
$$

随后应用

$$
a = \sigma(z), \quad (4)
$$

其中 $\sigma$ 通常预先选择,例如 ReLU、$\tanh$ 或 GELU。在此框架中,可训练参数是线性权重和偏置,而非线性性在节点级别是固定的。

KAN 则基于 Kolmogorov–Arnold 表示定理,该定理指出任何连续多元函数都可以通过连续单变量函数的叠加和加法来表示 \[20 (https://arxiv.org/html/2605.06740#bib.bib25), 8 (https://arxiv.org/html/2605.06740#bib.bib24), 1 (https://arxiv.org/html/2605.06740#bib.bib23)\]。更准确地说,如果 $f: [0,1]^{n} \to \mathbb{R}$ 是连续的,则存在连续单变量函数 $\phi_{i,j}$ 和 $\psi_i$ 使得

$$
f(x_1, \dots, x_n) = \sum_{i=0}^{2n} \psi_{i}\!\left(\sum_{j=1}^{n} \phi_{i,j}(x_{j})\right). \quad (5)
$$

这一定理起源于 Kolmogorov 对希尔伯特第十三问题的解决以及 Arnold 的改进,为 KAN 架构提供了概念基础(图 1 (https://arxiv.org/html/2605.06740#S2.F1))。

> **图 1:** 传统 DNN 和 KAN 中基本输入到节点操作的比较。为简单起见,该图侧重于局部神经元/层机制,而非完整的深度架构。在传统 DNN 中,输入首先通过可学习的标量权重组合并求和,然后在节点应用固定的非线性。相比之下,在 KAN 中,每个输入边携带其自己的可学习单变量非线性函数,而节点主要执行这些转换输入的加性聚合。

### 2.1 与传统 DNN 相比的 KAN 网络架构

尽管早期的尝试探索了受 Kolmogorov–Arnold 定理启发的神经架构 \[24 (https://arxiv.org/html/2605.06740#bib.bib26), 22 (https://arxiv.org/html/2605.06740#bib.bib27), 38 (https://arxiv.org/html/2605.06740#bib.bib28), 23 (https://arxiv.org/html/2605.06740#bib.bib29), 27 (https://arxiv.org/html/2605.06740#bib.bib30), 13 (https://arxiv.org/html/2605.06740#bib.bib31)\],但文献 \[25 (https://arxiv.org/html/2605.06740#bib.bib18)\] 中的工作给出了这一想法的实践性和系统性实现。在 KAN 中,标量边权重的角色被可学习的单变量非线性函数所取代。在实践中,这些边函数通常由样条表示进行参数化,特别是 B-样条,其系数在训练期间学习。

与传统 DNN 的结构对比是直接的。在标准 DNN 中,神经元首先形成输入的加权和,然后仅应用固定的非线性:

$$
z = \sum_{i=1}^{n} w_i x_i + b, \qquad a = \sigma(z). \quad (6)
$$

因此,可学习参数是标量权重 $w_i$,而激活函数 $\sigma$ 是预先规定的。在 KAN 中,局部层面的顺序是相反的。每个输入首先由其自己的可学习单变量映射 $\phi_i: \mathbb{R} \to \mathbb{R}$ 转换,然后节点以加性方式聚合这些转换后的信号:

$$
z = \sum_{i=1}^{n} \phi_i(x_i) + b. \quad (7)
$$

由于边映射 $\phi_i$ 本身是非线性和可训练的,因此节点处单独的固定激活并非必需。如果需要,仍可以应用额外的外部单变量映射 $\psi$,给出

$$
a = \psi\!\left(\sum_{i=1}^{n} \phi_i(x_i) + b\right). \quad (8)
$$

此表达式应理解为单个 KAN 节点,或者等价地理解为 Kolmogorov–Arnold 表示的一个外函数组件。完整的 Kolmogorov–Arnold 形式包含多个这样的外函数,通常由 $q$ 索引,其输出求和。

这种简单的标量视图也可以使用后文 GeoKAN 中使用的相同特征构建语言来书写。定义 KAN 特征向量

$$
F_{\mathrm{KAN}}(x) = \left[\phi_{1}(x_{1}), \phi_{2}(x_{2}), \dots, \phi_{n}(x_{n})\right]^{\top}. \quad (9)
$$

这里,$F_{\mathrm{KAN}}(x) \in \mathbb{R}^{n}$ 收集与输入坐标 $x_1, \dots, x_n$ 关联的学习到的单变量边特征。节点输出可以视为这些学习到的边特征的线性混合:

$$
z = \mathbb{I}^{\top} F_{\mathrm{KAN}}(x) + b, \quad (10)
$$

其中 $\mathbb{I} \in \mathbb{R}^{n}$ 表示全 1 向量,因此 $\mathbb{I}^{\top} F_{\mathrm{KAN}}(x) = \sum_{i=1}^{n} \phi_i(x_i)$,且 $b \in \mathbb{R}$ 是标量偏置项。更一般地,在层级别,相同的构造可以写为

$$
\tilde{h}^{(\ell)} = W_{\mathrm{KAN}}^{(\ell)} F_{\mathrm{KAN}}^{(\ell)} + b_{\mathrm{KAN}}^{(\ell)}. \quad (11)
$$

这里,$F_{\mathrm{KAN}}^{(\ell)}$ 表示第 $\ell$ 层的学习到的单变量边特征向量,$W_{\mathrm{KAN}}^{(\ell)}$ 和

相似文章

生成式量子启发柯尔莫哥洛夫-阿诺德本征求解器

Hugging Face Daily Papers

本文介绍生成式量子启发柯尔莫哥洛夫-阿诺德本征求解器(GQKAE),一种参数高效架构,用柯尔莫哥洛夫-阿诺德模块替代传统神经网络组件,显著降低内存使用并改善量子化学模拟中的收敛性。

几何金丝雀:通过表征稳定性预测可操控性与检测漂移

Hugging Face Daily Papers

# 论文页面 - 几何金丝雀:通过表征稳定性预测可操控性与检测漂移 来源:[https://huggingface.co/papers/2604.17698](https://huggingface.co/papers/2604.17698) ## 摘要 几何稳定性指标既能预测语言模型的可控性,也能检测其结构退化;其中监督版在操控预测上表现优异,无监督版在漂移检测上更胜一筹。

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani

Gated QKAN-FWP:可扩展的量子启发序列学习

arXiv cs.LG

本文提出了 Gated QKAN-FWP,这是一个可扩展的量子启发序列学习框架,它通过单量子比特数据重新加载电路,将快速权重程序员(Fast Weight Programmers)与柯尔莫哥洛夫-阿诺德网络(Kolmogorov-Arnold Networks)相结合。