超越神经网络的数据驱动变分基学习:一种用于自适应基发现的非神经网络框架

arXiv cs.LG 论文

摘要

本文介绍了数据驱动变分基学习(DVBL),这是一种非神经网络框架,通过变分优化直接从数据中学习基函数,与神经网络相比,具有可解释性和数学透明性。

arXiv:2605.05221v1 Announce Type: new 摘要:经典表示系统,如傅里叶级数、小波和固定字典,提供了解析上可处理的基展开,但它们本质上不适应现代高维数据的经验结构。神经网络通过从数据中学习特征克服了这一限制,但这是通过分层非线性参数化实现的,往往牺牲了可解释性、对基结构的显式控制以及数学透明性。在本文中,我们开发了一种非神经网络的替代方案,通过变分优化直接从数据中学习基函数。所提出的框架称为数据驱动变分基学习(DVBL),将基原子作为主要优化变量,并与样本特定系数以及(在适当情况下)潜在线性演化算子联合学习。这产生了一种数据自适应的基展开,保持显式、可解释且适合严格分析。我们制定了模型,建立了极小值的存在性,证明了交替最小化算法的块下降性质,给出了系数恢复和基可辨识性的条件,并展示了如何在不涉及神经架构的情况下集成流形和动力学正则化。我们还讨论了该框架相对于经典字典学习、谱方法、Koopman算子方法和深度表示学习的概念新颖性。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:33

# 超越神经网络的数据驱动变分基学习:一种自适应的非神经基发现框架
来源:https://arxiv.org/html/2605.05221
###### 摘要

经典的表示系统,如傅里叶级数、小波和固定字典,提供了可解析处理的基展开,但它们本质上并不适应现代高维数据的经验结构。神经网络通过从数据中学习特征克服了这一局限性,但这是通过分层的非线性参数化来实现的,这常常牺牲了可解释性、对基结构的显式控制以及数学透明度。在本文中,我们开发了一种非神经的替代方法,通过变分优化直接从数据中学习基函数。所提出的框架,称为*数据驱动变分基学习*(DVBL),将基原子作为主要优化变量,并与样本特定系数以及(适当时)潜在线性演化算子一起学习它们。这产生了一种数据自适应的基展开,该展开保持显式、可解释且易于进行严格分析。我们制定了模型,证明了极小值的存在性,建立了交替最小化算法的块坐标下降性质,给出了系数恢复和基可识别性的条件,并展示了如何在不涉及神经架构的情况下集成流形和动力正则化。我们还讨论了该框架相对于经典字典学习、谱方法、Koopman算子方法和深度表示学习的概念新颖性。

## 1 引言

现代数据分析中的一个核心问题是构建同时具有表现力、紧凑性、可解释性且适应经验观测几何结构的表示。经典的基展开,包括傅里叶系统、小波、样条基和其他解析指定的字典,长期以来为信号表示提供了数学优雅的机制。它们的强大之处在于闭式结构、正交性或近似正交性,以及发展良好的逼近理论。然而,这样的基通常是*a priori*固定的。因此,它们可能无法很好地匹配当代数据中存在的统计规律性、各向异性、非线性流形或任务相关结构。

神经网络通过从数据中学习表示来克服这一限制。它们不采用固定基,而是通过仿射映射和非线性激活函数的重复组合来学习参数化特征。这种灵活性在计算机视觉、语言建模、科学机器学习和序列分析中取得了显著的实证成功。然而,这种成功伴随着重要的权衡。神经表示通常是隐式的而非显式的;学习到的特征分布在许多层和参数中,而不是可识别为具体的基函数。此外,底层的优化景观是高度非凸且深度组合的,这使得理论分析、可解释性、稳定性保证以及领域约束(如稀疏性、对称性、光滑性或守恒律)的原则性融入变得复杂。

目前的工作开发了一条替代路线。我们不学习深度非线性网络,而是通过求解一个结构化的变分问题,直接学习一组基函数。得到的表示仍然采用熟悉的展开形式

xi≈∑k=1mαikφk,x_{i}\approx\sum_{k=1}^{m}\alpha_{ik}\phi_{k},\(1\.1\)但不同于傅里叶或小波分析,基元素\{φk\}k=1m\{\phi_{k}\}_{k=1}^{m}并非解析固定。相反,它们与系数\{αi\}i=1N\{\alpha_{i}\}_{i=1}^{N}一起从数据中推断出来。这建立了一种表示范式,该范式在广泛的意义上与神经特征学习一样具有自适应性,但又具有根本性非神经的结构。

乍一看,这种观点可能近似于字典学习。事实上,字典学习是一个自然的出发点。本文的贡献不仅仅是换种语言重述该领域的文献,而是将其置于一个更广泛的*变分基学习*视角下,该视角统一了几个通常被分开研究的思想:显式基学习、稀疏和结构化的系数推断、流形感知正则化、基于算子的潜在动力学以及任务自适应基约束。所提出的形式化方法产生了一个数学上透明的对象,即一个学习到的基,同时允许通用的正则化约束,使基光滑、局部化、正交、谱约束、物理可接受或动力学上连贯。

本文有四个主要目标。首先,我们提出*数据驱动变分基学习*(DVBL)的一般公式,这是一个直接从数据中学习自适应基函数的非神经框架。第二,我们提供严格的数学处理,包括极小值的存在性、交替优化的下降性质以及可识别性条件。第三,我们通过流形正则化和潜在线性演化将表示扩展到包含几何和动力学。第四,我们阐明该框架相对于神经网络、经典稀疏编码、谱图方法和基于Koopman的方法的新颖性。

总体论点是,自适应基学习不需要分层的神经参数化。我们可以在保留基展开概念清晰性的同时,通过结构化优化从数据中学习基本身。这产生了一个显式、可解释、数学上可分析且与许多领域特定先验兼容的表示族。

## 2 通用框架

### 2.1 问题设置

设\{xi\}i=1N⊂Rd\{x_{i}\}_{i=1}^{N}\subset\mathbb{R}^{d}表示一个观测集合。我们寻求一组基原子

Φ=[φ1,φ2,...,φm]∈Rd×m,\Phi=[\phi_{1},\phi_{2},\dots,\phi_{m}]\in\mathbb{R}^{d\times m},以及系数向量αi∈Rm\alpha_{i}\in\mathbb{R}^{m},使得每个观测值有一个近似展开

xi≈Φαi.x_{i}\approx\Phi\alpha_{i}.\(2\.1\)列向量φk\phi_{k}扮演学习到的基函数的角色,而系数αi\alpha_{i}在学习的基中对每个样本进行编码。

我们强调,在此框架中,基是主要的优化变量。因此,表示并非通过神经映射x↦fθ(x)x\mapsto f_{\theta}(x)获得,而是通过在学习的基中显式分解获得。这种区别既是概念性的,也是数学性的。表示并不隐藏在多层参数化的内部状态中;它就是基本身。

### 2.2 变分目标

DVBL的一般目标函数形式为

minΦ,{αi}i=1NJ(Φ,{αi}):=∑i=1N‖xi−Φαi‖22+λ∑i=1NR(αi)+μΩ(Φ),\min_{\Phi,\{\alpha_{i}\}_{i=1}^{N}}\mathcal{J}(\Phi,\{\alpha_{i}\}):=\sum_{i=1}^{N}\|x_{i}-\Phi\alpha_{i}\|_{2}^{2}+\lambda\sum_{i=1}^{N}R(\alpha_{i})+\mu\,\Omega(\Phi),\(2\.2\)服从Φ\Phi的结构约束,例如

‖φk‖2=1fork=1,...,m,\|\phi_{k}\|_{2}=1\quad\text{for }k=1,\dots,m,\(2\.3\)以及可选地

|φk⊤φl|≤δ,k≠l,|\phi_{k}^{\top}\phi_{\ell}|\leq\delta,\qquad k\neq\ell,\(2\.4\)对于某个相干参数δ≥0\delta\geq 0。

项R(αi)R(\alpha_{i})是系数正则化项,它可以促进稀疏性、组结构、时间平滑性或其他形式的低复杂度编码。典型的选择包括

R(αi)=‖αi‖1,R(αi)=‖αi‖22,R(αi)=∑g∈G‖αi,g‖2.R(\alpha_{i})=\|\alpha_{i}\|_{1},\qquad R(\alpha_{i})=\|\alpha_{i}\|_{2}^{2},\qquad R(\alpha_{i})=\sum_{g\in\mathcal{G}}\|\alpha_{i,g}\|_{2}.项Ω(Φ)\Omega(\Phi)正则化基本身。例子包括

Ω(Φ)=‖Φ‖F2,Ω(Φ)=∑k=1m‖∇φk‖22,Ω(Φ)=‖Φ⊤Φ−I‖F2,\Omega(\Phi)=\|\Phi\|_{F}^{2},\qquad\Omega(\Phi)=\sum_{k=1}^{m}\|\nabla\phi_{k}\|_{2}^{2},\qquad\Omega(\Phi)=\|\Phi^{\top}\Phi-I\|_{F}^{2},\(2\.5\)这取决于我们希望鼓励有界能量、光滑原子还是近似正交性。

这个公式有意地保持宽泛。它包含了经典稀疏编码作为一个特例,但也支持更结构化的模型,其中基被正则化以反映几何、频率定位、物理可接受性或动力学效用。

### 2.3 矩阵形式

令

X=[x1,...,xN]∈Rd×N,A=[α1,...,αN]∈Rm×N.X=[x_{1},\dots,x_{N}]\in\mathbb{R}^{d\times N},\qquad A=[\alpha_{1},\dots,\alpha_{N}]\in\mathbb{R}^{m\times N}.那么重构项可以紧凑地写为

∑i=1N‖xi−Φαi‖22=‖X−ΦA‖F2.\sum_{i=1}^{N}\|x_{i}-\Phi\alpha_{i}\|_{2}^{2}=\|X-\Phi A\|_{F}^{2}.因此\(2\.2 (https://arxiv.org/html/2605.05221#S2.E2)\)变为

minΦ,A‖X−ΦA‖F2+λR(A)+μΩ(Φ),\min_{\Phi,A}\|X-\Phi A\|_{F}^{2}+\lambda\,\mathcal{R}(A)+\mu\,\Omega(\Phi),\(2\.6\)其中R(A)=∑i=1NR(αi)\mathcal{R}(A)=\sum_{i=1}^{N}R(\alpha_{i})。

## 3 与经典表示和神经表示的关系

将所提出的公式与现有的表示范式进行对比是有益的。在经典的傅里叶展开中,我们写

x≈∑k=1mckψk,x\approx\sum_{k=1}^{m}c_{k}\psi_{k},其中\{ψk}\{\psi_{k}\}是解析确定的固定谐波。在小波展开中,基再次根据尺度和平移预先指定。在这两种情况下,系数依赖于数据,但基不依赖于数据。

相比之下,在神经网络中,通常不学习显式的基。相反,表示是通过诸如

x↦WLσ(WL−1σ(⋯σ(W1x))),x\mapsto W_{L}\sigma(W_{L-1}\sigma(\cdots\sigma(W_{1}x))),的组合来诱导的,相应的特征分布在整个参数化中。即使可以将神经网络解释为学习一个丰富的函数空间,学习到的原子也很少像\(1\.1 (https://arxiv.org/html/2605.05221#S1.E1)\)那样是显式的。

DVBL框架在设计空间中占据了一个不同的点。像神经网络一样,它适应数据。像经典基系统一样,它产生显式的展开元素。因此,它结合了适应性和表示透明性。这种综合是其在数学控制、可解释性和约束基设计很重要的环境中的核心吸引力所在。

## 4 存在性与基本性质

我们现在在温和假设下确认变分问题是有适定性的。

###### 假设1。

系数正则化器R:Rm→[0,∞)R:\mathbb{R}^{m}\to[0,\infty)是正常、下半连续的,并且在可行集上是强制或由强制函数下有界的。基正则化器Ω:Rd×m→[0,∞)\Omega:\mathbb{R}^{d\times m}\to[0,\infty)是正常且下半连续的。可行集

CΦ:={Φ∈Rd×m:‖φk‖2=1∀k,以及任何额外的闭约束}\mathcal{C}_{\Phi}:=\{\Phi\in\mathbb{R}^{d\times m}:\|\phi_{k}\|_{2}=1\ \forall k,\ \text{以及任何额外的闭约束}\}是非空且紧致的。

###### 定理1(极小值的存在性)。

在假设[1 (https://arxiv.org/html/2605.05221#Thmassumption1)下,优化问题

minΦ∈CΦ,A∈Rm×N‖X−ΦA‖F2+λR(A)+μΩ(Φ)\min_{\Phi\in\mathcal{C}_{\Phi},\ A\in\mathbb{R}^{m\times N}}\|X-\Phi A\|_{F}^{2}+\lambda\mathcal{R}(A)+\mu\Omega(\Phi)\(4\.1\)至少有一个全局极小值。

###### 证明。

目标函数是连续项‖X−ΦA‖F2\|X-\Phi A\|_{F}^{2}和下半连续项λR(A)\lambda\mathcal{R}(A)和μΩ(Φ)\mu\Omega(\Phi)之和,因此在CΦ×Rm×N\mathcal{C}_{\Phi}\times\mathbb{R}^{m\times N}上是下半连续的。由于CΦ\mathcal{C}_{\Phi}是紧致的,且R(A)\mathcal{R}(A)是强制或由强制函数下有界的,目标函数在AA上是强制的。因此所有子水平集在乘积空间中是闭且有界的。由变分法直接方法,一个极小化序列有一个收敛子序列,其极限位于可行集内并达到下确界。 ∎

接下来我们记录子问题的一个简单而有用的性质。

###### 命题1(系数子问题的凸性)。

固定Φ\Phi。如果RR是凸的,则优化问题

minA‖X−ΦA‖F2+λR(A)\min_{A}\|X-\Phi A\|_{F}^{2}+\lambda\mathcal{R}(A)\(4\.2\)在AA上是凸的。此外,如果RR是严格凸的,或者Φ⊤Φ\Phi^{\top}\Phi在相关支撑上是正定的,则极小值是唯一的。

###### 证明。

映射A↦‖X−ΦA‖F2A\mapsto\|X-\Phi A\|_{F}^{2}是凸二次的。与凸正则化器之和仍是凸的。如果其中一个加性项在可行域上是严格凸的,则得到严格凸性。 ∎

###### 命题2(二次正则化下基子问题的凸性)。

固定AA。如果Ω\Omega是凸的且Φ\Phi的可行集是凸的,则

minΦ‖X−ΦA‖F2+μΩ(Φ)\min_{\Phi}\|X-\Phi A\|_{F}^{2}+\mu\Omega(\Phi)\(4\.3\)在Φ\Phi上是凸的。

###### 证明。

对于固定的AA,映射Φ↦‖X−ΦA‖F2\Phi\mapsto\|X-\Phi A\|_{F}^{2}是Φ\Phi的凸二次函数。加上一个凸正则化器保持凸性。 ∎

## 5 交替最小化算法

### 5.1 分块优化

由于完整问题在(Φ,A)(\Phi,A)上联合非凸,一种自然的计算策略是交替最小化。我们迭代执行

1. \(i\)固定Φ\Phi求解系数AA,以及
2. \(ii\)固定AA求解基Φ\Phi。

当RR是凸的且Ω\Omega简单时,每个子问题比完整的联合优化更容易处理。

对于稀疏编码,系数步骤可以使用ISTA、FISTA、坐标下降或近端梯度方法执行。基步骤通常简化为正则化最小二乘,随后进行列归一化。通过这种方式,该算法避免了神经网络的分层反向传播,而是通过显式的表示更新进行操作。

### 5.2 算法伪代码

算法1 数据驱动变分基学习(DVBL)1:输入:数据矩阵

X∈Rd×NX\in\mathbb{R}^{d\times N},原子数量

mm,正则化参数

λ,μ\lambda,\mu,最大迭代次数

TT
2:初始化:基

Φ(0)=[φ1(0),...,φm(0)]\Phi^{(0)}=[\phi_{1}^{(0)},\dots,\phi_{m}^{(0)}]且

‖φk(0)‖2=1\|\phi_{k}^{(0)}\|_{2}=1
3:for

t=0,1,...,T−1t=0,1,\dots,T-1do

4:系数更新:

A(t+1)∈argminA‖X−Φ(t)A‖F2+λR(A)A^{(t+1)}\in\arg\min_{A}\|X-\Phi^{(t)}A\|_{F}^{2}+\lambda\mathcal{R}(A)
5:基更新:

Φ~(t+1)∈argminΦ‖X−ΦA(t+1)‖F2+μΩ(Φ)\widetilde{\Phi}^{(t+1)}\in\arg\min_{\Phi}\|X-\Phi A^{(t+1)}\|_{F}^{2}+\mu\Omega(\Phi)
6:原子归一化:for

k=1,...,mk=1,\dots,m,当φ~k(t+1)≠0\widetilde{\phi}_{k}^{(t+1)}\neq 0时,设置

φk(t+1)=φ~k(t+1)‖φ~k(t+1)‖2\phi_{k}^{(t+1)}=\frac{\widetilde{\phi}_{k}^{(t+1)}}{\|\widetilde{\phi}_{k}^{(t+1)}\|_{2}}
7:停止准则:如果

相似文章

变分选项发现算法

OpenAI Blog

OpenAI研究人员提出了VALOR,这是一种用于选项发现的变分推断方法,它将选项学习与变分自编码器联系起来,并提出了一种课程学习方法,通过动态增加上下文复杂性来稳定训练。

证据深度学习的变分推断

arXiv cs.LG

提出了一种数学上严格的框架——变分推断的深度证据学习(VI-EDL),通过变分推断重新表述传统深度证据学习,推导出证据下界,建立泛化界,并在视觉和医学数据集上实现了最先进的性能,以解决传统深度证据学习的局限性。

贝叶斯神经网络的等变性和数据增强

arXiv cs.LG

本文研究了使用变分推断训练的贝叶斯神经网络的数据增强方法,推导了精确等变性的条件,并引入了新颖的对称化技术(如轨道扩展)以提升对称性和性能。

通过非对称互变分学习的多模态连续推理

Hugging Face Daily Papers

提出非对称互变分学习(AMVL),通过双向校准防止答案泄露并提升潜在空间稳定性,解决多模态连续推理中的训练-推理不匹配问题,在BLINK基准测试上取得了显著的性能提升。