几何感知R结构Kolmogorov-Arnold网络

arXiv cs.LG 2026/07/03 04:00 论文

摘要

提出几何感知R结构KAN（GRS-KAN），一种将R函数集成到KAN中以编码几何和逻辑约束的混合神经架构，在含不连续性的回归基准上实现了高达67%的RMSE降低。

arXiv:2607.01449v1 公告类型:新摘要：我们提出了一种新颖的混合神经架构——几何感知R结构Kolmogorov-Arnold网络（GRS-KAN），它将V.L.Rvachev的R函数集成到Kolmogorov-Arnold网络（KAN）框架中。该方法结合了两种互补的建模机制：平滑非线性结构由KAN分支学习，而已知的几何或逻辑约束则使用可微的R函数进行分析编码。这使得在可训练的神经架构中能够显式地表示不连续性、可行区域和隐式几何边界。该框架通过R-合取和R-析取实现可微的逻辑运算，允许将复杂的几何支撑集分析性地表示并直接整合到回归模型中。引入了多种GRS-KAN变体，包括加性、乘性和不可知分支加权架构。该方法在涉及圆形和矩形支撑集不连续性的回归问题上进行了验证。数值实验表明，与标准KAN相比，显式几何编码显著提高了预测精度和边界定位。在所考虑的基准测试中，几何感知GRS-KAN模型将测试RMSE降低了多达67%，同时通过学习到的几何结构的显式分析表示提高了可解释性。不可知变体进一步展示了自动确定几何先验是否对给定学习任务有益的能力。

查看原文

查看缓存全文

缓存时间: 2026/07/03 05:40

# 几何感知R结构Kolmogorov–Arnold网络
来源：https://arxiv.org/html/2607.01449

###### 摘要

我们提出了一种新型混合神经架构——几何感知R结构Kolmogorov–Arnold网络（GRS-KAN），该网络将V.L. Rvachev的R函数集成到Kolmogorov–Arnold网络（KAN）框架中。所提方法结合了两种互补的建模机制：平滑非线性结构由KAN分支学习，而已知的几何或逻辑约束则使用可微R函数进行解析编码。这使得在不连续区域、可行区域和隐式几何边界能够在可训练神经架构中得到显式表示。

该框架通过R合取和R析取实现可微逻辑操作，使得复杂的几何支撑能够被解析表示并直接集成到回归模型中。我们引入了多种GRS-KAN变体，包括加性、乘性和不可知分支加权架构。

该方法在涉及圆形和矩形支撑的不连续回归问题上进行了演示。数值实验表明，与标准KAN相比，显式几何编码显著提高了预测精度和边界定位能力。在考虑的基准测试中，几何感知的GRS-KAN模型将测试RMSE降低了多达67%，同时通过学习到的几何结构的显式解析表示提高了可解释性。不可知变体进一步展示了自动确定几何先验是否对给定学习任务有益的能力。

## 1 引言

神经网络在众多领域取得了显著成功，但其“黑箱”性质对于需要可解释性和形式验证的应用来说仍然是一个重大限制，特别是在制药制造、过程控制和科学计算等安全关键领域。最近的两项发展从互补的角度解决了这一挑战：Kolmogorov–Arnold网络（KAN）和R函数。

由Liu等人[3]（https://arxiv.org/html/2607.01449#bib.bib1）引入的KAN，用可学习的单变量函数取代了传统的权重矩阵，为科学计算任务提供了改进的可解释性和准确性。该架构基于Kolmogorov–Arnold表示定理，该定理指出任何连续多元函数都可以分解为单变量函数组合的和。

KAN的引入引发了异常快速的研究活动扩展。在发表后大约一年内，原始KAN论文就累积了数千次引用，并产生了快速增长的衍生架构和应用生态系统。已经出现了众多变体，包括FastKAN、ConvKAN、GraphKAN、TemporalKAN、PDE-KAN、物理信息KAN、符号KAN、FourierKAN、WaveletKAN、ChebyshevKAN、Transformer-KAN混合体、算子学习KAN，以及在医学成像、遥感和分割任务中的多个特定领域实现。这种快速多样化反映了更广泛的兴趣，即用可学习的基于边的功能表示取代传统的基于节点的神经网络非线性。

大多数现有的KAN扩展主要集中在近似机制的修改上，包括替代基函数、样条参数化、卷积算子、符号原语、注意力机制或物理信息损失构造。然而，相对较少的关注致力于将显式几何、布尔结构、解析可行区域、不连续感知组合或隐式表面表示直接纳入KAN框架。

另外，由V.L. Rvachev[6]（https://arxiv.org/html/2607.01449#bib.bib3）开发并由Shapiro[7]（https://arxiv.org/html/2607.01449#bib.bib5），8（https://arxiv.org/html/2607.01449#bib.bib6）扩展的R函数，在逻辑运算和实分析之间提供了严格的桥梁。R函数允许通过单个可微方程解析地表示复杂的几何形状和布尔条件。这使得它们对于将几何约束和逻辑结构嵌入可微机器学习架构特别有吸引力。

本文介绍了几何感知R结构Kolmogorov–Arnold网络（GRS-KAN），这是一种将R函数直接嵌入KAN框架的混合架构。概念上，所提出的框架分离了两个根本不同的建模角色：

- • KAN分支从数据中学习平滑的非线性函数结构，
- • R函数解析地编码已知的几何或逻辑结构。

这导致了与现有KAN变体截然不同的方向。该框架不是引入另一种样条修改或近似基，而是将显式解析几何直接纳入网络架构本身。生成的模型能够表示不连续性、几何支撑、可行区域和隐式边界，同时保留梯度优化所需的可微性。

本研究的主要贡献是：

1. 1. 将几何和逻辑约束的解析R函数表示集成到KAN中的理论框架，在可微神经架构内。
2. 2. 使用R合取和R组合显式解析构造几何指示器，以及适合反向传播的闭式梯度表达式。
3. 3. 三种架构变体：目标加性、目标乘性和不可知分支加权GRS-KAN。
4. 4. 全面的数值实验，在已知不连续结构的问题上展示了改进的准确性、几何定位和可解释性。
5. 5. 经验证据表明，可学习的分支权重可以自动确定显式几何先验是否对回归任务有益。

虽然本文中的数值示例使用简单的矩形和圆形，但所提出的框架适用于由R函数解析表示的任何隐式区域，包括非凸域、不连通区域和多个约束的布尔组合。

本文的其余部分组织如下。第2节回顾了Kolmogorov–Arnold网络和R函数的理论基础，包括本文中使用的几何原语的解析构造。第3节介绍了所提出的GRS-KAN架构，包括加性、乘性和不可知分支加权变体。第4节给出了平滑和不连续基准问题的数值实验，以及剪枝诊断、几何定位研究和与标准KAN模型的比较。第5节讨论了显式几何感知学习的含义和可学习分支选择的作用。最后，第6节总结了主要结论并概述了未来的研究方向，包括扩展到多区域约束、自适应几何门和科学机器学习应用。

## 2 背景与理论

### 2.1 Kolmogorov–Arnold网络（KAN）

由Liu等人[4]（https://arxiv.org/html/2607.01449#bib.bib2）引入的Kolmogorov–Arnold网络（KAN）是一类受Kolmogorov–Arnold表示定理启发的神经网络。与传统多层感知机（MLP）不同，后者在节点上附加非线性激活函数，边包含标量权重，而KAN将可学习的非线性函数直接放置在网络的边上。这种架构变化导致了改进的可解释性、稀疏组合结构发现以及科学机器学习问题的强近似性能。

KAN的理论基础是Kolmogorov–Arnold表示定理，该定理指出任何连续多元函数f:[0,1]^n→R都可以表示为连续单变量函数的有限叠加：

f(x) = ∑_{q=0}^{2n} Φ_q(∑_{p=1}^{n} ψ_{q,p}(x_p)),   (1)

其中ψ_{q,p}:[0,1]→R和Φ_q:R→R是连续单变量函数。该定理表明，高维非线性映射原则上可以分解为一维函数的和与组合。

KAN通过用可学习的单变量边函数替换固定的线性权重，直接实现了这一思想。KAN层将输入向量x_l∈R^{n_l}映射到输出向量x_{l+1}∈R^{n_{l+1}}，通过

x_{l+1,j} = ∑_{i=1}^{n_l} φ_{l,j,i}(x_{l,i}),   (2)

其中φ_{l,j,i}是与连接第l层神经元i到第l+1层神经元j的边相关联的可训练单变量函数。因此，网络直接在连接上而不是节点上执行非线性函数变换。

公式(2)（https://arxiv.org/html/2607.01449#S2.E2），采用自Liu*等人*[4]（https://arxiv.org/html/2607.01449#bib.bib2）的原始KAN公式，构成了KAN的基本计算构件。在本文中，这个平滑的KAN映射作为基线函数逼近器。提出的几何感知R结构KAN（GRS-KAN）的关键思想不是修改内部的KAN层本身，而是用由R函数构建的显式解析几何组件来增强平滑的KAN近似。因此，KAN分支学习平滑的非线性行为，而R函数分支表示已知的几何约束、不连续性、可行区域和隐式边界。

根据Liu等人[4]（https://arxiv.org/html/2607.01449#bib.bib2），每个边激活使用一个残差公式表示，该公式由一个平滑基激活加上一个样条修正组成：

φ(x) = w_b b(x) + w_s spline(x),   b(x) = silu(x) = x/(1+exp(-x)),   (3)

其中w_b和w_s是可学习的标量系数。平滑残差分支提供稳定的全局行为，而样条分量捕获局部非线性结构。

样条项使用三次B样条基函数参数化：

spline(x) = ∑_i c_i B_i(x),   (4)

其中B_i(x)是三次B样条基函数，c_i是通过反向传播优化的可训练样条系数。

与MLP相比，KAN展现出几个重要特性：

- • 可解释性：由于非线性作为显式的一维函数附加到边上，学习到的变换可以直接可视化，并且在某些情况下可以符号简化。
- • 组合稀疏性：许多科学函数具有低维组合结构。KAN通过剪枝和弱分支或冗余分支的符号捕捉自然地暴露这一点。
- • 改进的缩放定律：Liu等人[4]（https://arxiv.org/html/2607.01449#bib.bib2）从经验上证明，在科学回归任务上，KAN可以用更少的参数达到比类似MLP更高的准确性。
- • 符号恢复：对于几个基准函数，剪枝后的KAN在符号简化后恢复出精确的解析表达式。

KAN的一个关键特征是结构剪枝。在训练过程中，许多边激活变得可忽略，允许在不降低准确性的情况下移除隐藏节点和边。这通常揭示了目标函数的紧凑组合表示。

参见图注(a)标准KAN架构。
参见图注(b)带几何门的GRS-KAN。

图1：标准KAN与几何感知R结构KAN（GRS-KAN）的比较。GRS-KAN通过由R函数编码的显式几何约束增强基础KAN，实现了硬约束回归和可解释的结构发现。图1（https://arxiv.org/html/2607.01449#S2.F1）说明了标准KAN与所提出的几何感知R结构KAN（GRS-KAN）之间的概念差异。在标准KAN中，所有几何结构都必须通过样条边激活从数据中隐式推断。相比之下，GRS-KAN通过可微R函数门显式地结合几何先验，允许已知区域约束和不连续性被解析编码。

尽管由公式(2)（https://arxiv.org/html/2607.01449#S2.E2）定义的架构能够逼近高度非线性的函数，但所有几何信息——包括可行区域、隐式边界、布尔约束和不连续性——都必须从训练数据中隐式推断。然而，对于许多科学和工程应用，这样的几何信息是*先验*已知的。下一节介绍R函数，它提供了一种显式编码这种几何的解析框架。在第3节中，这些解析几何表示与KAN的平滑近似能力相结合，形成所提出的几何感知R结构Kolmogorov–Arnold网络（GRS-KAN）。

### 2.2 R函数与几何原语

R函数是其符号完全由其参数的符号确定的实值函数，使得区域上的逻辑运算能够被解析表示[6]（https://arxiv.org/html/2607.01449#bib.bib3），5（https://arxiv.org/html/2607.01449#bib.bib4），7（https://arxiv.org/html/2607.01449#bib.bib5），8（https://arxiv.org/html/2607.01449#bib.bib6）。在此处使用的约定中，隐式函数φ(x)≥0表示区域的内部。

使用R函数解析表示隐式几何区域最近由Kucherenko*等人*[2]（https://arxiv.org/html/2607.01449#bib.bib7），1（https://arxiv.org/html/2607.01449#bib.bib8）为化学工程中可行区域和工艺设计空间的识别而发展。本工作在这些发展的基础上，将解析R函数表示直接嵌入KAN框架，从而实现了几何感知神经架构。

对于两个隐式函数φ_1(x)和φ_2(x)，R合取（AND）和R析取（OR）定义为：

φ_1 ∧_α φ_2 = (φ_1 + φ_2 - sqrt(φ_1^2 + φ_2^2 - 2α φ_1 φ_2)) / (1+α),   -1 < α ≤ 1,   (5)
φ_1 ∨_α φ_2 = (φ_1 + φ_2 + sqrt(φ_1^2 + φ_2^2 - 2α φ_1 φ_2)) / (1+α),   -1 < α ≤ 1,   (6)

其中α控制运算的平滑度。当α=1时，这些简化为标准的最小/最大函数：

φ_1 ∧_1 φ_2 = min(φ_1, φ_2),   φ_1 ∨_1 φ_2 = max(φ_1, φ_2)。

几何感知R结构Kolmogorov-Arnold网络

相似文章

几何科爾莫戈羅夫-阿諾德網絡 (GeoKAN)

面向多维函数逼近与随机场学习的层级RBF-KAN和RBF-SKAN架构

空间支撑至关重要：几何感知图融合用于降雨场重建

几何感知的神经算子事后不确定性量化

通过Kolmogorov-Arnold网络在FPGA上实现超快机器学习

提交意见反馈