无深度神经网络的LLMs:新架构、优势与案例研究
摘要
本文提出了一种替代架构,使用径向基函数(RBF)网络,消除了深度神经网络,并以闭合形式找到全局最优解,无需迭代训练。还回顾了其他非DNN方法,如KANs和k-NN检索,并通过案例研究展示了增强的可解释性和更快的训练速度。
arXiv:2605.30385v1 Announce Type: new
Abstract: 本文旨在为大语言模型(LLMs)中的深度神经网络替代方案提供验证。最近,中国研究人员对一种名为RBF网络的模型产生了浓厚兴趣,该模型可作为标准DNN的替代,具有更强的可解释性和更高的准确性。事实证明,我独立发现的新模型基于完全相同的机制。但有一个重大不同:它不需要DNN,因为它以闭合形式在一次迭代中找到损失函数的全局最优解,从而消除了繁琐的训练步骤。本文提供该技术的高层概述,包括案例研究和与类似方法的比较。
查看缓存全文
缓存时间: 2026/06/01 09:23
# 1 使用深度神经网络替代方案构建LLM 来源:https://arxiv.org/html/2605.30385 无需深度神经网络的LLM 新架构、优势与案例研究 Vincent Granville,博士 | CAIO | [email protected] BondingAI.io (https://bondingai.io/),1.0版,2026年5月 本文的目的是在LLM背景下验证我的深度神经网络替代方案。最近,中国研究人员对一种名为RBF网络的模型产生了浓厚兴趣,该模型可作为标准DNN的替代品,具有更高的可解释性和准确性。事实证明,我独立发现的新模型基于完全相同的机制,但有一个重大区别:它不需要DNN,因为它在一次迭代中以闭式解找到了损失函数的全局最优,从而省去了繁琐的训练步骤。在此,我提供这项技术的高层概述,并附案例研究及与类似方法的比较。 为绕过难以训练的深度神经网络,并用可解释AI和可复现性取代黑箱参数,已有多种尝试。径向基函数(RBF)网络是最近在LLM背景下被测试的一种方法,也是我率先采用的。其中一些方法(如RBF)依赖于可解释的DNN,但据我所知,我的RBF版本是唯一不使用任何DNN的。 - • **统计n-gram与基于索引的生成**:无需使用数十亿浮点数预测文本概率,而是直接通过分析大型语料库的频率和上下文来建模语言。 - – 工作原理:在训练数据中为每个标记及其前文语境建立精确索引。通过精确统计某个词出现在特定序列后的频率,系统计算下一个标记的统计概率。 - – 工具与概念:这是信息检索系统、马尔可夫链和概率后缀树的基础概念。 - • **Kolmogorov-Arnold网络(KANs)**:KANs是近期提出的多层感知机的数学替代方案。 - – 工作原理:传统DNN固定突触权重并在训练中通过数值调整,而KANs将可学习函数置于网络边上而非节点上。这使得模型能够用更小的架构表示高度复杂的多变量数学关系。 - – 实现:可使用原生GitHub库 KindXiaoming/pykan 在Python中定义KAN结构。 - • **k-最近邻(k-NN)/精确匹配检索器**:无需将世界知识编码进模型的内部矩阵权重,而是构建一个通过动态查找工作的系统。 - – 工作原理:推理时,系统在预先索引的训练数据集中搜索与当前上下文最匹配的文本块,直接借用它们来预测下一个词。 - – 工具与概念:要模拟这种架构,可将轻量级解析器与高速向量数据库(如Milvus或Qdrant)配对,或使用像LangChain这样的编排器进行检索。 - • **径向基函数(RBF)网络**:这是近期由多位中国研究人员以及我独立开创的新方法。我的实现是唯一不使用深度神经网络的,允许在没有轮次或梯度下降的情况下极快训练。本文后续将对此进行讨论。详情请参见[2]中的第6章 (https://arxiv.org/html/2605.30385#bib.bib16)。 KAN和RBF网络都利用了神经网络的**通用逼近定理**。即,预测器可以在任意维度上逼近任意连续函数。对于KAN,这是Kolmogorov-Arnold表示定理的结果;对于RBF,则与高斯混合的通用逼近定理相关。RBF模型中的基函数可以是多元高斯函数,从而形成高斯混合模型,甚至可以是径向的,即球面而非椭球面,故得名RBF。基函数在其他上下文中称为核,术语“核方法”和RBF可互换使用。 有观点认为KAN可能过拟合。在一项实验中,KAN以极高准确率拟合了特征中的纯随机数据与提供的标签,参见此处 (https://medium.com/@rubenszimbres/kolmogorov-arnold-networks-a-critique-2b37fea2112e)。我的RBF网络实现也存在同样情况。然而,在我的案例中,模型受益于**良性过拟合**,即使在训练集外也表现良好,即便输入数据被显著噪声污染。换句话说,它即使在相当混乱的数据上也能起到去模糊或高通滤波器的作用。 关于KAN的最新参考,见[3] (https://arxiv.org/html/2605.30385#bib.bib4)。关于RBF网络,见[5] (https://arxiv.org/html/2605.30385#bib.bib3)(讨论GenLoRa)和[4] (https://arxiv.org/html/2605.30385#bib.bib1)(聚焦高斯基函数)。另见[1] (https://arxiv.org/html/2605.30385#bib.bib2)(聚焦基于径向基的LLM安全性)。最后,我关于现代AI和LLM的新书[2] (https://arxiv.org/html/2605.30385#bib.bib16) 介绍了可解释DNN模型以及无需DNN的RBF网络。关于该话题的非技术性讨论,请参见“无需神经网络的LLM构建”,此处 (https://zoea.co.uk/news/news-250127.html)。 ### 1.1 RBF网络与标准LLM的关联 尽管径向基函数(RBF)网络和大语言模型(LLM)属于不同的架构家族,但它们的理念正在融合以提高模型效率。最近的AI研究引入了像GenLoRA这样的框架,利用轻量级RBF取代标准低秩适应方法中显式存储的大型基向量,在更小的参数预算下实现更高的准确率。 与LLM变压器不同——后者通过堆叠层构建分层、基于注意力的表示——RBF网络是传统的前馈浅层网络。然而,它们进行高效非线性函数逼近的能力,使其在与LLM结合时极具相关性: - • **生成式低秩适配器(GenLoRA)**:GenLoRA等方法并非像标准LoRA那样在矩阵中显式存储庞大的基向量,而是使用一组基于RBF的非线性生成器,从共享的小型潜空间中合成所需的基向量。这显著提高了LLM微调过程中的参数效率。 - • **概念表示与可解释性**:RBF网络被嵌入低维空间用于概念可视化。由于它们能高效表示非线性决策边界,因此可作为强大的探测工具,解码和控制黑箱LLM的内部表示。 - • **特征提取与嵌入**:RBF网络的隐藏层计算输入与预定义中心向量之间的欧氏距离,通常使用高斯核。虽然不作为LLM的核心架构,但RBF组件可置于LLM嵌入之上(例如作为分类头的一部分),以将密集的高维文本特征映射到特定的非线性分类输出。 ### 1.2 将RBF网络与标准LLM结合 表1 (https://arxiv.org/html/2605.30385#S1.T1) 显示了基于变压器的标准LLM与RBF系统结合的优势。 表1:标准LLM变压器与RBF网络对比 ## 2 无需训练的快速、高精度RBF网络 我的模型是一种标准的精确RBF插值器。我称之为**插值器**而非网络,因为它不涉及DNN。其机制与DNN相当复杂,且有许多共同特征。然而,由于我专注于企业语料库,它使用的嵌入数量减少了一万倍。也就是说,SLM在语料库和英语(整个互联网的一小部分)上训练,以回答专业业务问题,而非能编写代码、解决数学问题及以任何语言回答任何问题的通用LLM。重点在于提供简洁、详尽且结构化的答案,并为响应中的每个条目附带相关性评分。 对于数值数据,我使用径向高斯混合,如公式(1) (https://arxiv.org/html/2605.30385#S2.E1)和(3) (https://arxiv.org/html/2605.30385#S2.E3)所示。文本数据的改编见公式(4) (https://arxiv.org/html/2605.30385#S2.E4)。在Python代码中,文本字符串保持“原样”,甚至不转化为数值嵌入,向量数据库被嵌套哈希所替代。此外,核K的选择并不重要。相反,我强调通过量化使用预计算值,以所需的最小精度进行快速计算。 与标准模型的两个主要区别如下: - • 权重w_k(x) 依赖于x且经过归一化:它们加和为1。这与大多数其他实现形成对比,后者不需要归一化,而是使用DNN寻找最佳权重(称为参数)。 - • 我专注于(1) (https://arxiv.org/html/2605.30385#S2.E1)中τ→∞的奇异情况。这导致无论权重和其他参数或超参数如何,训练数据上的预测都是精确的。这是[2]第6章 (https://arxiv.org/html/2605.30385#bib.bib16)中证明的定理2.1 (https://arxiv.org/html/2605.30385#S2.Thmtheorem1)的推论。要使其良好运行,需要仔细关注数值分析方面。此时,无需训练。 还有其他几个不同之处。我使用多标记而非嵌入,每个多标记由一组词干化单词组成。这有助于将提示中的业务首字母缩略词与语料库中的文本更好匹配。此外,有不同类型的多标记:常规型和语境型。后者例如出现在PDF文档的标题、标签、类别或较大字体中的文本元素。用户可以在提示时指定标签和否定关键词。 ### 2.1 模型描述与公式化 预测模型通常表示为Y = f(X),其中响应Y是包含n个观测值的列向量,输入数据X是包含n行m列的表。列称为**特征**,m为**维度**。此处我用β表示X,其中β_k对应第k行,β_{kj}表示表中单元格(k,j)的值。β_k称为**节点**。更具体地,β = φ(X),其中φ是可逆变换(或可逆变换链),用作**归一化器**以显著提升性能。模型如下: f_pred(x) = Σ_{k=1}^n ω_k(x) f(β_k) exp[-τ K(x, β_k)], (1) 其中f_pred(x)是对仅在n个位置β_1,...,β_n(维度为m的空间中)已知的函数f(x)的预测值。对于所有x,权重ω_k(x)必须满足: Σ_{k=1}^n ω_k(x) exp[-τ K(x, β_k)] = 1。 (2) 因此权重以高度非线性的方式依赖于x并隐式依赖于节点。这是我们与许多核模型的第一个重要区别。另一个主要区别是,非零权重的数量可以多达n,而在其他方法中,除非x与β_k足够接近,否则大多数权重ω_k(x)为零。函数K称为**核**。它必须是正定的、对称的,并且仅当两个参数相同时为零。我们框架中的一个典型例子是: K(x, β_k) = [(1/m)(x - β_k)(x - β_k)^T]^γ = [(1/m)||x - β_k||^2]^γ (3) 假设x, β_k是行向量,具有m个分量(m可大至1000),T是转置算子。因此,(3)中的向量积是点积。我主要使用γ=1/2,偶尔使用γ=1。在(3)中乘以1/m在m较大时特别有用,起到归一化作用。一个轻微的推广是使用: K(x, β_k) = Σ_{j=1}^m θ_j δ(x_j, β_{kj}) (4) 其中θ_j为正且加和为1。对于数值情况,δ(x_j, β_{kj}) = (x_j - β_{kj})^2。在LLM上下文中,其含义如下: - • 两者x和β均为文本;x来自提示,β来自语料库。 - • x_j, β_{kj}可能是小文本字符串,δ(x_j, β_{kj})是x_j与β_{kj}之间的某种关联度量,例如xLLM模型中的增强PMI。 - • f(x) = P(x_m | x_1, ..., x_{m-1})是在给定文本字符串x中前面的元素按顺序为x_{m-1}, x_{m-2}, ..., x_1的条件下,观察到x_m位于字符串末尾的概率。因此,这涉及下一个标记预测。 - • 参数θ_j根据位置j在字符串x中对每个元素进行加权。通常,θ_j是衰减权重,以赋予位置更接近x_m的单词元素更大的重要性。 模型(3)是(4)的特例,其中所有θ_j相等。暂时忽略φ变换,β称为**训练集**,无论是否需要实际训练。第一个重要结果(同时适用于文本和数值数据)如下: ###### 定理2.1 如果x是训练集中的观测值且f(x) ≠ 0,那么当τ→∞时,公式(1)(基于核(3)或(4),对于文本或数值数据)能精确估计f(x)。无需训练。 注意,即使多个节点β_k重复但具有相同的f(β_k)值,该定理仍然成立。因此,函数f可以逼近任何数据,甚至最混乱的数据,即使数据是白噪声。收敛是点态的,而非一致。因此,要在训练集外做出正确预测,如果f不光滑,可能需要较大的训练集。 ### 2.2 良性过拟合、其他特性与优势 我的模型与大多数DNN一样,受益于**良性过拟合**:尽管在训练数据上100%正确(因此严重过拟合),但在训练集外仍能获得非常好的预测。对于DNN,其原因仍是个谜。然而,在我的案例中,解释很简单。该模型源于二维空间中的精确空间插值,也称为**克里金法**。观察图1 (https://arxiv.org/html/2605.30385#S2.F1),圆点代表训练集位置,温度完美匹配。在这些位置之外,仍能获得良好预测,实际上优于标准模型(后者倾向于过度平滑,用不规则等高线而非光滑椭圆曲线来更好地表示局部变化)。右下角是芝加哥市,带有热穹顶。
相似文章
LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]
Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。
无需GPU的LLMs个人持续学习——立场论文[OC]
作者提出了两种架构,即内部KV-Sphere架构(IKSA)和背景微调(BMFT),使得LLMs能够从个人互动中持续学习,无需GPU且无灾难性遗忘。
大语言模型与本地AI硬件的推理引擎(2026版)
本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。
@AndrewYNg:全新课程:高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务…
Andrew Ng 与 DeepLearning.AI 联合 Red Hat 推出了一门关于使用 vLLM 进行高效 LLM 推理的短期课程,内容涵盖量化、PagedAttention、连续批处理以及大规模 LLM 服务的性能基准测试。
大语言模型实际工作原理
深入剖析现代大语言模型的工作原理,涵盖从分词到下一个词预测的核心机制,无需复杂数学知识。