双值对称循环矩阵：在深度学习中的应用

arXiv cs.LG 2026/05/19 04:00 论文

sparsity circulant-matrices edge-computing tiny-ml parameter-compression deep-learning iomt

摘要

本文提出双值对称循环矩阵（TVSCM），一种极度稀疏的架构，每层仅使用两个权重，即可在MNIST和MIT-BIH心律失常数据集上实现超过80倍的参数压缩，同时保持可比的精度，使其成为边缘和微型机器学习平台的理想选择。

arXiv:2605.16443v1 公告类型：新论文摘要：尽管深度神经网络在视觉、医学诊断和物联网场景中取得了成功，但由于其高存储需求、计算复杂性和较大的模型体积，在资源有限的平台上的部署面临严峻挑战。特别是全连接层需要大量权重，使得边缘设备难以容纳。为了克服这些与有限平台相关的挑战，本文提出了双值对称循环矩阵（TVSCM），一种极度稀疏的架构，每层仅使用两个权重来保持其循环性和对称性。这种极端的结构化稀疏架构相比传统的全权重存储提供了微不足道的存储成本。与硬件和传统稀疏学习技术（如低秩近似和剪枝方法）的额外阶段不同，该架构提供了一种极端形式的稀疏性，实现了极小的存储需求。仿真研究表明，模型参数减少了80倍以上，MNIST数据集参数从623,290降至7,852，MIT-BIH心律失常数据集参数从24,709降至942，同时保持了可比的精度：MNIST上从97.6%降至93.5%，MIT-BIH上从97.6%降至93.1%。由于其最小的架构要求和极低的功耗，该架构非常适合边缘计算平台、微型机器学习平台、医疗物联网系统和电池供电系统。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:43

# 双值对称循环矩阵：深度学习中的应用  
来源：https://arxiv.org/html/2605.16443  

Jayakrishna Amathi (ORCID: https://orcid.org/0009-0008-5064-5663)  
计算机科学与工程系，北德克萨斯大学，丹顿，德克萨斯州，美国。[email protected]  

&  

Venkata Prasanth Yanambaka (ORCID: https://orcid.org/0000-0003-4625-8050)  
计算机科学系，德克萨斯女子大学，丹顿，德克萨斯州，美国。[email protected]  

&  

Saraju P. Mohanty (ORCID: https://orcid.org/0000-0003-2959-6541)  
计算机科学与工程系，北德克萨斯大学，丹顿，德克萨斯州，美国。[email protected]  

&  

Elias Kougianos (ORCID: https://orcid.org/0000-0002-1616-7628)  
计算机科学与工程系，北德克萨斯大学，丹顿，德克萨斯州，美国。[email protected]  

###### 摘要  

尽管深度神经网络在视觉、医疗诊断和物联网场景中取得了成功，但由于其高存储需求、计算复杂性和巨大的模型体积，在资源有限的平台上部署它们面临严峻挑战。特别是，全连接层需要大量权重，使得边缘设备难以容纳。为了克服这些与有限平台相关的挑战，本文提出了双值对称循环矩阵（TVSCM），这是一种非常稀疏的架构，每层仅使用两个权重来保持循环和对称性。这种极端形式的结构化稀疏架构与传统全权重存储相比，提供了可忽略的存储成本。与低秩近似和剪枝方法等其他传统稀疏学习技术所需的硬件和额外阶段不同，该架构实现了极端稀疏性，从而实现了极小的存储需求。仿真研究表明，模型参数减少了80倍以上，在MNIST数据集上从623,290个参数减少到7,852个，在MIT-BIH心律失常数据集上从24,709个减少到942个，同时保持可比的精度：MNIST从97.6%到93.5%，MIT-BIH从97.6%到93.1%。由于其最小的架构要求和极低的功耗，该架构非常适合边缘计算平台、Tiny-ML平台、IoMT系统和电池供电系统。  

*关*键词  
稀疏性⋅权值共享⋅双值对称循环矩阵⋅结构化神经网络⋅稠密矩阵⋅参数压缩⋅特征值分析⋅深度学习效率  

## 1 引言  

医疗领域目前正快速向智能系统转型。每秒产生的海量健康信息由数十亿个可穿戴传感器和物联网健康设备驱动。健康物联网，包括智能手表等可穿戴设备和植入式生物传感器，用于监测健康参数、识别异常并协助临床医生进行早期疾病诊断[55 (https://arxiv.org/html/2605.16443#bib.bib53),32 (https://arxiv.org/html/2605.16443#bib.bib49)]。但这些健康监测器大多依赖云端进行处理。在生命关键应用中，决策的微小延迟可能带来危险[5 (https://arxiv.org/html/2605.16443#bib.bib52)]。为了克服这些挑战，科学家们最近开始将计算从远程云服务器迁移到更靠近数据生成区域的边缘/雾设备。这一发展被称为边缘智能[55 (https://arxiv.org/html/2605.16443#bib.bib53),32 (https://arxiv.org/html/2605.16443#bib.bib49)]。它使智能传感器、智能手机和本地网关能够在本地分析数据，从而更快、更准确地提供健康响应。例如，可穿戴心电图和血糖水平健康监测器可以独立分析其数据，而无需依赖远程网络[32 (https://arxiv.org/html/2605.16443#bib.bib49)]。然而，在小规模边缘系统上应用复杂的深度学习架构仍然是一个挑战。这是因为深度神经网络拥有数百万个参数，这些参数对内存和计算要求很高，对于小型医疗设备来说难以承受[55 (https://arxiv.org/html/2605.16443#bib.bib53)]。因此，设计轻量、参数高效的AI模型也得到了类似的重视。使用结构化数学表示，如循环矩阵和对称矩阵，最近显示出在降低神经网络复杂性方面的巨大潜力[46 (https://arxiv.org/html/2605.16443#bib.bib51)]。因此，在小型边缘系统（如医院、家庭和健康追踪设备中使用的系统）中直接实现智能成为可能[33 (https://arxiv.org/html/2605.16443#bib.bib50)]。为此，本研究提出了一种基于双值对称循环矩阵（TVSCM）的深度学习架构，用于医疗领域。所提出模型的数学结构基于在循环配置中恰好存在两个对称值。所提出的双值对称循环矩阵（TVSCM）的可行性在MNIST和MIT-BIH心律失常数据库[41 (https://arxiv.org/html/2605.16443#bib.bib1)]上得到了验证，与常规模型相比，参数数量减少了80倍，同时保持了相同的精度水平。  

本文组织如下：第2节 (https://arxiv.org/html/2605.16443#S2) 概述了矩阵。第3节 (https://arxiv.org/html/2605.16443#S3) 提供了深度学习的背景，第4节 (https://arxiv.org/html/2605.16443#S4) 讨论了深度学习在医疗中的作用，第5节 (https://arxiv.org/html/2605.16443#S5) 强调了深度学习在医疗中的挑战。第6节 (https://arxiv.org/html/2605.16443#S6) 讨论了类似领域的跨学科研究。第7节 (https://arxiv.org/html/2605.16443#S7) 概述了本文的贡献。第8节 (https://arxiv.org/html/2605.16443#S8) 提出了双值对称循环矩阵（TVSCM）模型。第9节 (https://arxiv.org/html/2605.16443#S9) 给出了实验结果。最后，第10节 (https://arxiv.org/html/2605.16443#S10) 总结了本文并讨论了未来的研究方向。  

可穿戴传感器 → 云端处理 → 健康决策  
(a) 传统的云端依赖方法（慢，高延迟）  

可穿戴传感器 → TVSCM边缘模型 → 健康决策  
(b) 所提出的基于TVSCM的边缘智能方法（快，低延迟）  

图1：医疗推理：传统的基于云的方法与所提出的基于TVSCM的边缘方法对比。  

## 2 矩阵概述  

矩阵是现代计算系统和数学建模的基础。它们以适合变换、线性变换和函数最小化的组织格式包含数值数据，应用于科学的众多领域。图2 (https://arxiv.org/html/2605.16443#S2.F2) 描述了矩阵的显著分类及其之间的关系，而表1 (https://arxiv.org/html/2605.16443#S2.T1) 描述了每种矩阵类型的关键特征，如稀疏性、对称性和时间复杂度。理解这些矩阵类别对于设计高效的深度学习、信号处理和数值计算算法至关重要[51 (https://arxiv.org/html/2605.16443#bib.bib6)]。  

(a) 稠密矩阵  
(b) 对角矩阵  
(c) 循环矩阵（行移位）  
(d) 托普利兹矩阵（常数对角线）  
(e) 块结构矩阵（突出显示块）  

图2：结构化矩阵类型，突出参数减少。  

表1：一般nn矩阵结构的参数比较。  

### 2.1 稠密矩阵  

稠密矩阵是指大多数元素非零的矩阵。它们构成了线性代数的基础，是矩阵求逆和分解运算的基础。尽管稠密表示具有完全的表达能力，但它们带来了大量的计算和内存开销，求逆或分解通常需要O(n^3)次操作[11 (https://arxiv.org/html/2605.16443#bib.bib7)]。在科学计算和深度神经网络中，稠密矩阵常被结构化或稀疏矩阵取代以提高可扩展性。然而，对于需要精确算术的满秩问题和低维系统，它们是不可替代的。Bartels–Stewart方法和Krylov子空间方法是专门为Sylvester或Lyapunov方程系统中的稠密系数矩阵设计的求解方法[11 (https://arxiv.org/html/2605.16443#bib.bib7)]。这些策略虽然提供了显著的数值精度，但对于大问题变得不实用，因此催生了后面介绍的结构化变体的发现。除了经典的稠密求解器，最近的研究还集中在利用矩阵中的底层结构来提高稠密矩阵计算的可扩展性。一些研究论文表明，科学计算和积分方程方法中使用的大量稠密矩阵在其非对角块中表现出低秩结构。可以开发稠密求解器以最小化内存需求和计算成本，同时保持稳定性。随机和无矩阵方法在求解大规模稠密矩阵方面显示出有希望的结果。这些方法对于求解大型稠密矩阵非常有效，因为它们消除了显式构造矩阵的需要。它们仅依赖于矩阵向量乘积操作。可以开发稠密矩阵求解器以减少内存需求，同时保持稳定性[37 (https://arxiv.org/html/2605.16443#bib.bib67)]。高效稠密矩阵求解器开发的第二个方向是应用分层方法或快速多极方法。这些方法既可以用作直接求解器，也可以用作预处理器。稠密矩阵可以转换为稀疏矩阵表示。近场相互作用可以单独处理，而远场相互作用可以用低秩矩阵表示。快速多极方法的应用可以将求解器的时间复杂度从立方降低到线性或拟线性，适用于广泛的稠密矩阵。当这些方法用作预处理器时，可以加速迭代求解器的收敛，同时保持精度[15 (https://arxiv.org/html/2605.16443#bib.bib68)]。  

### 2.2 对角矩阵  

对角矩阵是最基本的矩阵，其定义是非对角线位置元素为零。由于这种结构，特征值和行列式的计算变得简单，使得对角矩阵对于分析结果和快速数值算法非常有用[51 (https://arxiv.org/html/2605.16443#bib.bib6)]。在机器学习中，对角设置应用于辅助参数初始化、预处理和协方差建模等过程，其中变量独立性假设起着重要作用。一个重要的实际应用是置换对角矩阵，它在保持计算效率的同时，通过重新排列元素提供灵活性。如果与紧凑高效的架构一起考虑，这些矩阵在保持整个深度网络层稳定性的同时，显著减少了存储和乘法成本[11 (https://arxiv.org/html/2605.16443#bib.bib7)]。对角矩阵的简单性和灵活性的结合使它们成为理论和实践方面的关键元素。此外，对角矩阵的易用性对高效理论数据结构与实际使用数据结构（如并行计算中使用的数据结构）之间的接口具有重要影响。大量文献致力于将大型块矩阵转换为对角形式的可行性，从而降低计算复杂性。这个话题在隐式数值方案的背景下也很相关，因为对角化提供了用一系列标量计算替代计算昂贵的块求逆的机会[44 (https://arxiv.org/html/2605.16443#bib.bib69)]。该领域的重要研究已经确立了对角和置换对角矩阵作为与硬件架构兼容的高效算法基础基础的可行性。对角占优矩阵通过置换或分解优化矩阵元素的能力提供了一种优化缓存利用和并行处理的方法。因此，对角矩阵数据结构不仅有利于传统的数值方法，而且与以数据为中心的应用相关，并可以为具有可预测内存访问模式的轻量级数据结构提供基础[47 (https://arxiv.org/html/2605.16443#bib.bib70)]。  

### 2.3 托普利兹矩阵  

托普利兹矩阵具有常数对角线，每条从左到右的下降型对角线具有相同的值。它们固有地出现在时间序列分析、数字信号处理和控制系统[30 (https://arxiv.org/html/2605.16443#bib.bib8)]中。经典定理如Szegö定理给出了其特征值的渐近分布，并包含关于系统稳定性和滤波的深刻信息。这些矩阵提供了计算优势，因为乘法和求逆通常可以在O(n^2)甚至O(n log^2 n)时间内完成，通过基于快速傅里叶变换（FFT）的算法[63 (https://arxiv.org/html/2605.16443#bib.bib9)]。应用范围超越微分方程、协方差建模和稳态随机过程，其中托普利兹形式是滞后差依赖性的相关性[30 (https://arxiv.org/html/2605.16443#bib.bib8)]。托普利兹矩阵和循环矩阵之间的强联系使得它们能够通过FFT快速近似，使它们成为当前信号和图像分析流程中的流行组件。循环矩阵和托普利兹矩阵的效率主要源于这些矩阵与快速傅里叶变换（FFT）的兼容性，将卷积操作转换为逐元素乘积。计算复杂度从O(n^2)降低到O(n log n)，同时保持数值稳定性[63 (https://arxiv.org/html/2605.16443#bib.bib9)]。在Gray的核心综述中，观察到循环矩阵可通过离散傅里叶变换对角化，从而促进高效的滤波过程和特征值计算[30 (https://arxiv.org/html/2605.16443#bib.bib8)]。这些基于FFT的公式构成了托普利兹结构和循环结构之间的联系，分别实现了紧凑性和减少的算术运算。由FFT操作实现的这些好处直接推动了对大规模神经系统中循环和块循环构造的转变，其中快速谱卷积对于扩展仍然不可或缺。  

### 2.4 循环矩阵  

循环矩阵是托普利兹矩阵的一种特殊类型，其中每一后续行是当前行或前一行行的循环移位。它们具有特征性质 C = circ(c0, c1, ..., cn-1)，这使得可以通过离散傅里叶变换对角化。

双值对称循环矩阵：在深度学习中的应用

相似文章

通信动力学神经网络：通过快速傅里叶变换对角化层减少参数数量并改善海森矩阵条件数

基于稀疏传感器测量的张量重构的低成本高阶奇异值分解：城市流动与空气质量应用

SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

@Underfox3: 本文提出了一种面向N:M稀疏视觉Transformer推理的软硬件协同设计框架，能够实现...

利用适度非结构化稀疏权重矩阵加速大语言模型的GPU推理

提交意见反馈