通信动力学神经网络：通过快速傅里叶变换对角化层减少参数数量并改善海森矩阵条件数

arXiv cs.LG 2026/05/12 04:00 论文

摘要

本文介绍了 CDLinear，这是一种分块循环神经网络层，通过快速傅里叶变换对角化技术减少参数量并改善海森矩阵条件数，并在 MNIST 数据集上结合理论证明进行了验证。

arXiv:2605.08171v1 公告类型：新论文摘要：背景与动机。通信动力学（CD）框架在早期两篇关于原子能量预测和场致超导性的论文中被引入，该框架将每个物理通道视为一个具有 (2l+1) 个顶点的多边形，其离散傅里叶变换产生能量谱。本文将同样的循环谱方法应用于神经网络设计。层结构设计。CDLinear 是一个分块大小为 B = 2l+1 的分块循环线性层，其参数量仅为同等输入/输出维度全连接层的 1/B。该结构具有三个特性。（i）相对于权重的均方损失海森矩阵被离散傅里叶变换对角化，其特征值 |F[Xj](k)|^2 可直接从输入统计数据中读取（定理 1）。（ii）在输入预白化条件下，总体海森矩阵条件数严格满足 kappa = 1，而在 N 个样本上的经验条件数界限为 1+O(sqrt(B/N))（定理 2）。（iii）母版 CD 论文中基于 Na D-双线校准的香农噪声率 alpha_CD = 0.0118 指定了一个可迁移且非任意性的 dropout 率。实证评估。在 B = 4 时，CDLinear 多层感知机（MLP）达到 97.50% +/- 0.23% 的测试准确率，参数仅为 2,380 个；相比之下，参数量匹配的全连接 MLP（8,970 个参数）的准确率为 98.15% +/- 0.47%。这意味着在准确率仅损失 0.65%（处于不同随机种子间波动的一个标准差范围内）的情况下，参数量减少了 3.8 倍。CD-MLP 的平均海森矩阵条件数 kappa = 1.9x10^4 比基线全连接网络的 kappa = 5.9x10^6 小 310 倍，这与定理 2 定量一致。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 06:55

# FFT 对角化层：以更少的参数改善 Hessian 条件数
来源: https://arxiv.org/html/2605.08171
## 通信动力学神经网络：FFT 对角化层以更少的参数改善 Hessian 条件数

\(2026年4月27日\)

###### 摘要

背景与动机\. 通信动力学 \(CD\) 框架在两篇早期论文中分别用于原子能量预测和场致超导性研究，该框架将每个物理信道视为一个 \(2\ell+1\) 顶点的多边形，其离散傅里叶变换（DFT）可得能量谱\. 本文将该循环谱方法应用于神经网络设计\.

层构建\. 我引入了 *CDLinear*，这是一种分块循环线性层，分块大小为 \(B=2\ell+1\)，其参数量仅为相同输入/输出维度稠密层的 \(1/B\)\. 该构建具备三个性质\. \(i\) 关于权重的均方损失 Hessian 矩阵本身被离散傅里叶变换对角化，其特征值 \(\|\mathcal{F}[X_{j}](k)\|^2\) 可直接从输入统计量中读取（定理 1 (https://arxiv.org/html/2605.08171#Thmtheorem1)）\. \(ii\) 在输入预白化条件下，总体 Hessian 条件数严格满足 \(\kappa=1\)，而在 \(N\) 个样本上的经验条件数有界于 \(1+O(\sqrt{B/N})\)（定理 2 (https://arxiv.org/html/2605.08171#Thmtheorem2)）\. \(iii\) 源自父级 CD 论文中 Na D-双线的香农噪声率 \(\alpha_{\mathrm{CD}}=0.0118\) 指定了一个可迁移且非任意的 Dropout 率\.

实证评估\. 我用纯 NumPy 实现了该层，手工推导了反向传播过程，通过有限差分法将梯度误差验证至相对误差 \(<10^{-4}\)，并在 \(8\times8\) MNIST 基准（sklearn.datasets.load_digits, 1437 个训练样本和 360 个测试样本）上进行了测试\. 在三个随机种子下，\(B=4\) 的 CDLinear MLP 以 2,380 个参数达到了 \(97.50\%\pm0.23\%\) 的测试准确率，相比之下，参数量匹配的稠密 MLP 以 8,970 个参数达到了 \(98.15\%\pm0.47\%\) 的准确率——即在 \(0.65\%\) 的准确率代价下实现了 \(3.8\) 倍的参数减少，这一差距在种子间波动的一个标准差范围内\. CD-MLP 的平均 Hessian 条件数 \(\kappa=1.9\times10^4\) 比稠密基线的 \(\kappa=5.9\times10^6\) 小 \(310\) 倍，这与定理 2 (https://arxiv.org/html/2605.08171#Thmtheorem2) 定量一致\.

诚实的定位\. 分块循环和结构化矩阵神经网络层已有十年历史，始于 Chen 等人（2015）；CDLinear 在数学上是其特例\. 本文新增的贡献包括：\(a\) 一种闭式 Hessian 谱诊断方法，可通过单次 FFT 在每个小批量中计算；\(b\) 遵循 CD 理论多边形多重性的结构多重性离散序列 \(B\in\{1,3,5,7,\ldots\}\)；\(c\) 可迁移的 \(\alpha_{\mathrm{CD}}=0.0118\) 正则化率；以及 \(d\) 明确阐述先前结构化矩阵工作中仅通过实证展示的 conditioning 优势的定理\.

实证声明的范围\. MNIST-1797 基准对于几乎所有合理的分类器来说都在 \(98\%\) 附近饱和；这里的参数效率故事清晰可见，且 conditioning 优势巨大且可重现，但本文并未确立向更难的基准（CIFAR-10, ImageNet, 语言建模）以及卷积层和注意力层的泛化性，这被确定为主要的后续工作\. 所有代码、梯度检查单元测试、原始实验日志和 JSON 结果数据库均已公开释放\.

神经网络, 结构化矩阵, 循环层, 通信动力学, Hessian 条件数, FFT, 傅里叶神经算子

## I 引言

由 Pan, Skidmore, Güldal 和 Tanik（2021）\[1 (https://arxiv.org/html/2605.08171#bib.bib1)\] 引入并在两篇最近关于原子能量预测\[2 (https://arxiv.org/html/2605.08171#bib.bib2)\]（论文 I）和场致超导性\[3 (https://arxiv.org/html/2605.08171#bib.bib3)\]（论文 II）的论文中发展的通信动力学 \(CD\) 框架，将物理系统视为离散通信信道，其误差内容多边形的频谱可通过离散傅里叶变换计算\. 数学引擎是循环谱定理：具有第一行 \(\mathbf{c}=(c_{0},c_{1},\ldots,c_{n-1})\) 的循环矩阵 \(C\in\mathbb{C}^{n\times n}\) 被酉 DFT 矩阵 \(F_{n}\) 对角化，其特征值为 \(\lambda_{k}=\sum_{j=0}^{n-1}c_{j}\,e^{2\pi ijk/n}\)\[4 (https://arxiv.org/html/2605.08171#bib.bib4)\]\. CD 利用这一事实来短路构型空间积分：CD 不是在连续空间网格上求解薛定谔方程，而是在离散 \(m_{\ell}\) 空间中直接计算多边形 DFT，在精度低于密度泛函理论 \(4\)–\(7\) 倍的情况下，实现了 \(10^2\)–\(10^3\) 倍的加速\.

神经网络（NNs）本身也是通信信道\. 线性层 \(y=Wx+b\)，其中权重 \(W\in\mathbb{R}^{n_{\rm out}\times n_{\rm in}}\) 将输入符号映射到输出符号，损失景观由 \(W\) 的频谱决定：均方损失的 Hessian 为 \(W^{\top}W\)，其条件数 \(\kappa(W)=\sigma_{\max}^{2}/\sigma_{\min}^{2}\) 控制梯度下降的收敛速度\. 对于随机初始化的稠密层，Marchenko–Pastur 理论\[5 (https://arxiv.org/html/2605.08171#bib.bib5)\] 预测 \(\kappa=\Theta(n_{\rm in})\)，随着网络规模扩大而无界增长，最小奇异值在扰动下尤其脆弱\. 这就是激励层归一化\[7 (https://arxiv.org/html/2605.08171#bib.bib7)\]、权重归一化\[8 (https://arxiv.org/html/2605.08171#bib.bib8)\] 和自然梯度方法\[9 (https://arxiv.org/html/2605.08171#bib.bib9)\] 的 Hessian 条件数问题\[6 (https://arxiv.org/html/2605.08171#bib.bib6)\]\.

本文的命题是：驱动论文 I 中原子预测和论文 II 中 FISC 预测的同一循环谱定理，当权重矩阵为 \((2\ell+1)\) 顶点多边形信道的分块循环数组时，为 NN Hessian 条件数提供了透明解决方案\. 此时 Hessian *由构造* 被 DFT 对角化，其特征值为输入块 FFT 幅度的平方\. 使用平坦输入频谱初始化可在训练开始时得到 \(\kappa=1\)；下文的定理 2 (https://arxiv.org/html/2605.08171#Thmtheorem2) 表明，这一性质在经验 Hessian 中持续存在，且受控于一个有界范围\.

与先前结构化矩阵 NN 工作的关系\. 循环权重矩阵在 NN 文献中已使用了近十年，始于 Chen 等人\[10 (https://arxiv.org/html/2605.08171#bib.bib10)\]，他们通过实证表明循环投影在 \(1/n\) 参数量下保持准确率；Yue 等人\[11 (https://arxiv.org/html/2605.08171#bib.bib11)\] 将其扩展至学习结构化矩阵；Sindhwaniet al\.\[14 (https://arxiv.org/html/2605.08171#bib.bib14)\] 编目了位移秩族；Moczulskiet al\.\[15 (https://arxiv.org/html/2605.08171#bib.bib15)\] 引入了 ACDC 层；Thomaset al\.\[16 (https://arxiv.org/html/2605.08171#bib.bib16)\] 学习了低位移秩压缩变换；Daoet al\.\[17 (https://arxiv.org/html/2605.08171#bib.bib17)\] 引入了 Monarch 矩阵；以及 Liet al\.\[12 (https://arxiv.org/html/2605.08171#bib.bib12)\] 的傅里叶神经算子将循环层泛化到函数空间设置\. 本文的 CDLinear 层在数学上是这些结构化矩阵族的特例\.

本文贡献了先前工作未涉及的四个方面\. 首先，块大小 \(B=2\ell+1\) 的选择源于定义 CD 理论中香农信号码元集的多边形多重性，为超参数选择提供了离散物理动机序列 \(B\in\{1,3,5,7,\ldots\}\)，而非启发式搜索\. 其次，在论文 I 中从 Na D-双线校准的香农噪声率 \(\alpha_{\mathrm{CD}}=0.0118\) 提供了一个可迁移、非经验正则化率\. 第三，显式的闭式定理（定理 1 (https://arxiv.org/html/2605.08171#Thmtheorem1)）使 FFT 对角 Hessian 属性严谨且可计算，提供了一种无需任何矩阵分解即可进行的每批次条件数诊断\. 第四，该框架置于更广泛的 CD 研究计划中，涵盖原子尺度物理（论文 I）、高磁场超导性（论文 II）和当前的神经网络应用，且设计选择始终一致\.

我并不声称 CDLinear 在所有基准上优于所有替代方案\. 此类声明需要在标准基准（CIFAR-10, ImageNet, 语言建模）上评估完整的结构化矩阵文献，而本文并未尝试\. 贡献在于为框架提供源自 CD 理论的坚实理论基础，并在一个小基准上通过实验验证预测的 conditioning 优势在定量上得以实现\.

文章结构\. 第 II 节 (https://arxiv.org/html/2605.08171#S2) 回顾 CD 理论的相关要素\. 第 III 节 (https://arxiv.org/html/2605.08171#S3) 介绍 CDLinear 层并证明 FFT 对角 Hessian 定理\. 第 IV 节 (https://arxiv.org/html/2605.08171#S4) 开发香农 dropout 和 Fisher 信息正则化器\. 第 V 节 (https://arxiv.org/html/2605.08171#S5) 推导条件数界\. 第 VI 节 (https://arxiv.org/html/2605.08171#S6) 报告 MNIST 实验\. 第 VII 节 (https://arxiv.org/html/2605.08171#S7) 明确陈述局限性和后续实验\. 第 VIII 节 (https://arxiv.org/html/2605.08171#S8) 总结\.

## II 通信动力学：简要回顾

在 CD 理论中，每个具有量子数 \((n,\ell)\) 的原子价轨道被建模为正 \(2\ell+1\) 顶点多边形，其信道符号 \(m_{\ell}\in\{-\ell,\ldots,\ell\}\) 索引 SO\(3\) 不可约表示的基，维度为 \(2\ell+1\)\[1 (https://arxiv.org/html/2605.08171#bib.bib1)\]\. 轨道-信道矩阵元为

\(U_{m_{\ell}}(t)=\frac{8\,e\,Z_{\rm eff}}{(n/2+3m_{\ell})^{2}}\,e^{im_{\ell}t},\qquad a=n+1,\) \(1\)

且 \(\{U_{m_{\ell}}\}_{m_{\ell}=-\ell}^{\ell}\) 的离散傅里叶变换提供能量谱\[1 (https://arxiv.org/html/2605.08171#bib.bib1),2 (https://arxiv.org/html/2605.08171#bib.bib2)\]\. 香农噪声常数 \(\alpha_{\mathrm{CD}}=0.0118\) 进入精细结构类似能量修正 \(\Delta E\propto\alpha_{\mathrm{CD}}^{2}Z_{\rm eff}^{4}/n^{3}\ell(\ell+\tfrac{1}{2})(\ell+1)\)，并针对 Na D-双线实验分裂 \(0.00207\) eV 进行校准\[2 (https://arxiv.org/html/2605.08171#bib.bib2)\]\.

对我们而言，关键事实是：

- \(F1\) 第一行为 \(\mathbf{c}=(c_{0},\ldots,c_{B-1})\) 的循环矩阵被 \(B\times B\) DFT 对角化\.
- \(F2\) 多边形具有自然的奇数多重性 \(B=2\ell+1\)\.
- \(F3\) 当每符号噪声率等于 \(\alpha_{\mathrm{CD}}=0.0118\) 时，信道运行在香农容量\.

我们使用 \(F1\) 定义层，使用 \(F2\) 选择块大小作为具有离散物理序列的超参数，并将 \(F3\) 作为随机正则化的原则默认率\.

## III CDLinear 层

### III\.1 前向映射

具有输入维度 \(n_{\rm in}\)、输出维度 \(n_{\rm out}\) 和块大小 \(B\)（假设整除 \(n_{\rm in}\) 和 \(n_{\rm out}\)）的 CDLinear 层由张量 \(\mathbf{C}\in\mathbb{R}^{K_{o}\times K_{i}\times B}\) 参数化，其中 \(K_{o}=n_{\rm out}/B\) 且 \(K_{i}=n_{\rm in}/B\)\. 每个切片 \(\mathbf{c}_{ij}\in\mathbb{R}^{B}\) 是循环块 \(C_{ij}\in\mathbb{R}^{B\times B}\) 的第一行，定义为 \((C_{ij})_{kl}=c_{ij,(k-l)\,\mathrm{mod}\,B}\)\. 完整权重矩阵 \(W\in\mathbb{R}^{n_{\rm out}\times n_{\rm in}}\) 是分块矩阵 \(W=(C_{ij})_{i=1\ldots K_{o},\,j=1\ldots K_{i}}\)\.

对于重塑为 \(X\in\mathbb{R}^{K_{i}\times B}\) 的输入 \(x\in\mathbb{R}^{n_{\rm in}}\)，

\(y_{i}=\sum_{j=1}^{K_{i}}C_{ij}\,X_{j}=\sum_{j=1}^{K_{i}}\mathcal{F}^{-1}\bigl[\mathcal{F}[\mathbf{c}_{ij}]\odot\mathcal{F}[X_{j}]\bigr],\qquad i=1,\ldots,K_{o},\) \(2\)

其中 \(\mathcal{F}\) 是 \(B\) 点 DFT，\(\odot\) 是逐元素乘法\. 完整输出 \(y\in\mathbb{R}^{n_{\rm out}}\) 通过堆叠 \(y_{i}\in\mathbb{R}^{B}\) 获得\.

参数量\. CDLinear 层具有 \(K_{o}\cdot K_{i}\cdot B=n_{\rm in}\cdot n_{\rm out}/B\) 个权重参数加上 \(n_{\rm out}\) 维偏置，相比稠密层的 \(n_{\rm in}\cdot n_{\rm out}\) 个参数减少了 \(B\) 倍因子\. 对于 \(B=4\) 且 \(n_{\rm in}=n_{\rm out}=64\)，这是 \(4\) 倍压缩（1024 对 4096 个权重参数）\.

计算\. 前向传播成本为 \(O(K_{o}\,K_{i}\,B\log B)=O(n_{\rm in}\,n_{\rm out}\,\log B/B)\)，当 \(\log B/B<1\) 即 \(B\geq 4\) 时，渐近快于 \(O(n_{\rm in}\,n_{\rm out})\) 的稠密成本\.

### III\.2 反向映射

关于 \(\mathbf{c}_{ij}\) 的式 \(2\) (https://arxiv.org/html/2605.08171#S3.E2) 的向量-雅可比积（VJP）是上游梯度 \(\delta y_{i}\) 与输入块 \(X_{j}\) 的互相关，可通过 FFT 计算：

\(\frac{\partial\mathcal{L}}{\partial\mathbf{c}_{ij}}=\mathcal{F}^{-1}\bigl[\overline{\mathcal{F}[X_{j}]}\odot\mathcal{F}[\delta y_{i}]\bigr]\,,\) \(3\)

其中 \(\overline{(\cdot)}\) 表示复共轭\. 关于输入的 VJP 类似地是对“反转”系数 \(\mathbf{c}_{ij}^{\rm rev}\) 的循环矩阵-向量积，定义为 \(c_{ij,m}^{\rm rev}=c_{ij,(-m)\,\mathrm{mod}\,B}\)：

\(\delta X_{j}=\sum_{i=1}^{K_{o}}\mathcal{F}^{-1}\bigl[\mathcal{F}[\mathbf{c}_{ij}^{\rm rev}]\odot\mathcal{F}[\delta y_{i}]\bigr]\,.\) \(4\)

两个 VJP 的成本均为 \(O(K_{o}\,K_{i}\,B\log B)\)\.

验证\. 我用纯 NumPy 实现了式 \(2\) (https://arxiv.org/html/2605.08171#S3.E2)–\(4\) (https://arxiv.org/html/2605.08171#S3.E4)，并在随机选择的张量索引和三个 \((n_{\rm in},n_{\rm out},B)\) 配置下，将解析梯度与有限差分验证至相对误差 \(<10^{-4}\)\. 单元测试套件包含在发布的代码中\.

### III\.3 Hessian 对角化定理

###### 定理 1（FFT-对角

通信动力学神经网络：通过快速傅里叶变换对角化层减少参数数量并改善海森矩阵条件数

相似文章

PixelCNN++：通过离散化逻辑混合似然函数及其他改进增强 PixelCNN

通过稀疏电路理解神经网络

权重归一化：加速深度神经网络训练的简单重参数化方法

用于二维浅水方程的有限体积信息神经网络框架：崎岖的损失景观与数据指导的重要性

分层多尺度图神经网络：通过缓解过平滑和过挤压实现可扩展的异配学习

提交意见反馈