无深度神经网络的LLMs：新架构、优势与案例研究

arXiv cs.LG 2026/06/01 04:00 论文

llm deep-neural-network rbf-network kan alternative-architecture explainable-ai retrieval-augmented

摘要

本文提出了一种替代架构，使用径向基函数（RBF）网络，消除了深度神经网络，并以闭合形式找到全局最优解，无需迭代训练。还回顾了其他非DNN方法，如KANs和k-NN检索，并通过案例研究展示了增强的可解释性和更快的训练速度。

arXiv:2605.30385v1 Announce Type: new Abstract: 本文旨在为大语言模型（LLMs）中的深度神经网络替代方案提供验证。最近，中国研究人员对一种名为RBF网络的模型产生了浓厚兴趣，该模型可作为标准DNN的替代，具有更强的可解释性和更高的准确性。事实证明，我独立发现的新模型基于完全相同的机制。但有一个重大不同：它不需要DNN，因为它以闭合形式在一次迭代中找到损失函数的全局最优解，从而消除了繁琐的训练步骤。本文提供该技术的高层概述，包括案例研究和与类似方法的比较。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:23

# 1 使用深度神经网络替代方案构建LLM
来源：https://arxiv.org/html/2605.30385  
无需深度神经网络的LLM

新架构、优势与案例研究

Vincent Granville，博士 | CAIO | [email protected]

BondingAI.io (https://bondingai.io/)，1.0版，2026年5月

本文的目的是在LLM背景下验证我的深度神经网络替代方案。最近，中国研究人员对一种名为RBF网络的模型产生了浓厚兴趣，该模型可作为标准DNN的替代品，具有更高的可解释性和准确性。事实证明，我独立发现的新模型基于完全相同的机制，但有一个重大区别：它不需要DNN，因为它在一次迭代中以闭式解找到了损失函数的全局最优，从而省去了繁琐的训练步骤。在此，我提供这项技术的高层概述，并附案例研究及与类似方法的比较。

为绕过难以训练的深度神经网络，并用可解释AI和可复现性取代黑箱参数，已有多种尝试。径向基函数（RBF）网络是最近在LLM背景下被测试的一种方法，也是我率先采用的。其中一些方法（如RBF）依赖于可解释的DNN，但据我所知，我的RBF版本是唯一不使用任何DNN的。

- • **统计n-gram与基于索引的生成**：无需使用数十亿浮点数预测文本概率，而是直接通过分析大型语料库的频率和上下文来建模语言。  
  - – 工作原理：在训练数据中为每个标记及其前文语境建立精确索引。通过精确统计某个词出现在特定序列后的频率，系统计算下一个标记的统计概率。  
  - – 工具与概念：这是信息检索系统、马尔可夫链和概率后缀树的基础概念。
- • **Kolmogorov-Arnold网络（KANs）**：KANs是近期提出的多层感知机的数学替代方案。  
  - – 工作原理：传统DNN固定突触权重并在训练中通过数值调整，而KANs将可学习函数置于网络边上而非节点上。这使得模型能够用更小的架构表示高度复杂的多变量数学关系。  
  - – 实现：可使用原生GitHub库 KindXiaoming/pykan 在Python中定义KAN结构。
- • **k-最近邻（k-NN）/精确匹配检索器**：无需将世界知识编码进模型的内部矩阵权重，而是构建一个通过动态查找工作的系统。  
  - – 工作原理：推理时，系统在预先索引的训练数据集中搜索与当前上下文最匹配的文本块，直接借用它们来预测下一个词。  
  - – 工具与概念：要模拟这种架构，可将轻量级解析器与高速向量数据库（如Milvus或Qdrant）配对，或使用像LangChain这样的编排器进行检索。
- • **径向基函数（RBF）网络**：这是近期由多位中国研究人员以及我独立开创的新方法。我的实现是唯一不使用深度神经网络的，允许在没有轮次或梯度下降的情况下极快训练。本文后续将对此进行讨论。详情请参见[2]中的第6章 (https://arxiv.org/html/2605.30385#bib.bib16)。

KAN和RBF网络都利用了神经网络的**通用逼近定理**。即，预测器可以在任意维度上逼近任意连续函数。对于KAN，这是Kolmogorov-Arnold表示定理的结果；对于RBF，则与高斯混合的通用逼近定理相关。RBF模型中的基函数可以是多元高斯函数，从而形成高斯混合模型，甚至可以是径向的，即球面而非椭球面，故得名RBF。基函数在其他上下文中称为核，术语“核方法”和RBF可互换使用。

有观点认为KAN可能过拟合。在一项实验中，KAN以极高准确率拟合了特征中的纯随机数据与提供的标签，参见此处 (https://medium.com/@rubenszimbres/kolmogorov-arnold-networks-a-critique-2b37fea2112e)。我的RBF网络实现也存在同样情况。然而，在我的案例中，模型受益于**良性过拟合**，即使在训练集外也表现良好，即便输入数据被显著噪声污染。换句话说，它即使在相当混乱的数据上也能起到去模糊或高通滤波器的作用。

关于KAN的最新参考，见[3] (https://arxiv.org/html/2605.30385#bib.bib4)。关于RBF网络，见[5] (https://arxiv.org/html/2605.30385#bib.bib3)（讨论GenLoRa）和[4] (https://arxiv.org/html/2605.30385#bib.bib1)（聚焦高斯基函数）。另见[1] (https://arxiv.org/html/2605.30385#bib.bib2)（聚焦基于径向基的LLM安全性）。最后，我关于现代AI和LLM的新书[2] (https://arxiv.org/html/2605.30385#bib.bib16) 介绍了可解释DNN模型以及无需DNN的RBF网络。关于该话题的非技术性讨论，请参见“无需神经网络的LLM构建”，此处 (https://zoea.co.uk/news/news-250127.html)。

### 1.1 RBF网络与标准LLM的关联

尽管径向基函数（RBF）网络和大语言模型（LLM）属于不同的架构家族，但它们的理念正在融合以提高模型效率。最近的AI研究引入了像GenLoRA这样的框架，利用轻量级RBF取代标准低秩适应方法中显式存储的大型基向量，在更小的参数预算下实现更高的准确率。

与LLM变压器不同——后者通过堆叠层构建分层、基于注意力的表示——RBF网络是传统的前馈浅层网络。然而，它们进行高效非线性函数逼近的能力，使其在与LLM结合时极具相关性：

- • **生成式低秩适配器（GenLoRA）**：GenLoRA等方法并非像标准LoRA那样在矩阵中显式存储庞大的基向量，而是使用一组基于RBF的非线性生成器，从共享的小型潜空间中合成所需的基向量。这显著提高了LLM微调过程中的参数效率。
- • **概念表示与可解释性**：RBF网络被嵌入低维空间用于概念可视化。由于它们能高效表示非线性决策边界，因此可作为强大的探测工具，解码和控制黑箱LLM的内部表示。
- • **特征提取与嵌入**：RBF网络的隐藏层计算输入与预定义中心向量之间的欧氏距离，通常使用高斯核。虽然不作为LLM的核心架构，但RBF组件可置于LLM嵌入之上（例如作为分类头的一部分），以将密集的高维文本特征映射到特定的非线性分类输出。

### 1.2 将RBF网络与标准LLM结合

表1 (https://arxiv.org/html/2605.30385#S1.T1) 显示了基于变压器的标准LLM与RBF系统结合的优势。

表1：标准LLM变压器与RBF网络对比

## 2 无需训练的快速、高精度RBF网络

我的模型是一种标准的精确RBF插值器。我称之为**插值器**而非网络，因为它不涉及DNN。其机制与DNN相当复杂，且有许多共同特征。然而，由于我专注于企业语料库，它使用的嵌入数量减少了一万倍。也就是说，SLM在语料库和英语（整个互联网的一小部分）上训练，以回答专业业务问题，而非能编写代码、解决数学问题及以任何语言回答任何问题的通用LLM。重点在于提供简洁、详尽且结构化的答案，并为响应中的每个条目附带相关性评分。

对于数值数据，我使用径向高斯混合，如公式(1) (https://arxiv.org/html/2605.30385#S2.E1)和(3) (https://arxiv.org/html/2605.30385#S2.E3)所示。文本数据的改编见公式(4) (https://arxiv.org/html/2605.30385#S2.E4)。在Python代码中，文本字符串保持“原样”，甚至不转化为数值嵌入，向量数据库被嵌套哈希所替代。此外，核K的选择并不重要。相反，我强调通过量化使用预计算值，以所需的最小精度进行快速计算。

与标准模型的两个主要区别如下：

- • 权重w_k(x) 依赖于x且经过归一化：它们加和为1。这与大多数其他实现形成对比，后者不需要归一化，而是使用DNN寻找最佳权重（称为参数）。
- • 我专注于(1) (https://arxiv.org/html/2605.30385#S2.E1)中τ→∞的奇异情况。这导致无论权重和其他参数或超参数如何，训练数据上的预测都是精确的。这是[2]第6章 (https://arxiv.org/html/2605.30385#bib.bib16)中证明的定理2.1 (https://arxiv.org/html/2605.30385#S2.Thmtheorem1)的推论。要使其良好运行，需要仔细关注数值分析方面。此时，无需训练。

还有其他几个不同之处。我使用多标记而非嵌入，每个多标记由一组词干化单词组成。这有助于将提示中的业务首字母缩略词与语料库中的文本更好匹配。此外，有不同类型的多标记：常规型和语境型。后者例如出现在PDF文档的标题、标签、类别或较大字体中的文本元素。用户可以在提示时指定标签和否定关键词。

### 2.1 模型描述与公式化

预测模型通常表示为Y = f(X)，其中响应Y是包含n个观测值的列向量，输入数据X是包含n行m列的表。列称为**特征**，m为**维度**。此处我用β表示X，其中β_k对应第k行，β_{kj}表示表中单元格(k,j)的值。β_k称为**节点**。更具体地，β = φ(X)，其中φ是可逆变换（或可逆变换链），用作**归一化器**以显著提升性能。模型如下：

f_pred(x) = Σ_{k=1}^n ω_k(x) f(β_k) exp[-τ K(x, β_k)]， (1)

其中f_pred(x)是对仅在n个位置β_1,...,β_n（维度为m的空间中）已知的函数f(x)的预测值。对于所有x，权重ω_k(x)必须满足：

Σ_{k=1}^n ω_k(x) exp[-τ K(x, β_k)] = 1。 (2)

因此权重以高度非线性的方式依赖于x并隐式依赖于节点。这是我们与许多核模型的第一个重要区别。另一个主要区别是，非零权重的数量可以多达n，而在其他方法中，除非x与β_k足够接近，否则大多数权重ω_k(x)为零。函数K称为**核**。它必须是正定的、对称的，并且仅当两个参数相同时为零。我们框架中的一个典型例子是：

K(x, β_k) = [(1/m)(x - β_k)(x - β_k)^T]^γ = [(1/m)||x - β_k||^2]^γ (3)

假设x, β_k是行向量，具有m个分量（m可大至1000），T是转置算子。因此，(3)中的向量积是点积。我主要使用γ=1/2，偶尔使用γ=1。在(3)中乘以1/m在m较大时特别有用，起到归一化作用。一个轻微的推广是使用：

K(x, β_k) = Σ_{j=1}^m θ_j δ(x_j, β_{kj}) (4)

其中θ_j为正且加和为1。对于数值情况，δ(x_j, β_{kj}) = (x_j - β_{kj})^2。在LLM上下文中，其含义如下：

- • 两者x和β均为文本；x来自提示，β来自语料库。
- • x_j, β_{kj}可能是小文本字符串，δ(x_j, β_{kj})是x_j与β_{kj}之间的某种关联度量，例如xLLM模型中的增强PMI。
- • f(x) = P(x_m | x_1, ..., x_{m-1})是在给定文本字符串x中前面的元素按顺序为x_{m-1}, x_{m-2}, ..., x_1的条件下，观察到x_m位于字符串末尾的概率。因此，这涉及下一个标记预测。
- • 参数θ_j根据位置j在字符串x中对每个元素进行加权。通常，θ_j是衰减权重，以赋予位置更接近x_m的单词元素更大的重要性。

模型(3)是(4)的特例，其中所有θ_j相等。暂时忽略φ变换，β称为**训练集**，无论是否需要实际训练。第一个重要结果（同时适用于文本和数值数据）如下：

###### 定理2.1

如果x是训练集中的观测值且f(x) ≠ 0，那么当τ→∞时，公式(1)（基于核(3)或(4)，对于文本或数值数据）能精确估计f(x)。无需训练。

注意，即使多个节点β_k重复但具有相同的f(β_k)值，该定理仍然成立。因此，函数f可以逼近任何数据，甚至最混乱的数据，即使数据是白噪声。收敛是点态的，而非一致。因此，要在训练集外做出正确预测，如果f不光滑，可能需要较大的训练集。

### 2.2 良性过拟合、其他特性与优势

我的模型与大多数DNN一样，受益于**良性过拟合**：尽管在训练数据上100%正确（因此严重过拟合），但在训练集外仍能获得非常好的预测。对于DNN，其原因仍是个谜。然而，在我的案例中，解释很简单。该模型源于二维空间中的精确空间插值，也称为**克里金法**。观察图1 (https://arxiv.org/html/2605.30385#S2.F1)，圆点代表训练集位置，温度完美匹配。在这些位置之外，仍能获得良好预测，实际上优于标准模型（后者倾向于过度平滑，用不规则等高线而非光滑椭圆曲线来更好地表示局部变化）。右下角是芝加哥市，带有热穹顶。

无深度神经网络的LLMs：新架构、优势与案例研究

相似文章

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

无需GPU的LLMs个人持续学习——立场论文[OC]

大语言模型与本地AI硬件的推理引擎（2026版）

@AndrewYNg：全新课程：高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务…

大语言模型实际工作原理

提交意见反馈