Sigma-Branch: 面向动态推理的分层单路径网络重构,减少活跃参数

arXiv cs.LG 论文

摘要

Sigma-Branch 将预训练的稠密网络重构成一个层次化二叉树结构,包含共享主干、路由器和专用叶子节点。在 CIFAR-100、ImageNet-1K 和 ModelNet40 上,每次推理的活跃参数减少 58-60%,同时精度下降不超过基线精确率的 1.72 个百分点。

arXiv:2606.09924v1 公告类型:新 摘要:在内存受限的边缘加速器上部署深度神经网络时,瓶颈在于每次推理所需的片外权重传输,而非计算本身:稠密网络无法完全保留在芯片上,每个输入都必须加载所有参数。现有的模型压缩方法虽能减少传输量,但会永久性损失模型容量。我们提出 Sigma-Branch (SigmaB) 框架,将预训练的稠密网络重构成一个层次化二叉树,包含共享主干、层次化路由器和专用叶子节点。预训练权重通过基于激活的球形 k-means 聚类分布在树中,该聚类联合初始化路由器权重和每个分支的通道分配;随后通过软路由微调使每个叶子节点与其路由的输入子集对齐。推理时,结果网络仅执行一条从根到叶子的路径,从而在内存中存储完整稠密参数集的同时减少活跃参数占用。在 CIFAR-100 / ResNet-50、ImageNet-1K / ResNet-50 和 ModelNet40 / PointNet++ 上,SigmaB-Net 将每次推理的活跃参数减少 58-60%,同时与稠密基线 Top-1 精度相比保持在 1.72 个百分点 (pp) 以内。在相似的 ImageNet-1K Top-1 精度下,活跃参数减少量比静态结构化剪枝 (FPGM, HRank) 高出 14-23 pp。跨模态评估涵盖了 2D 视觉和 3D 点云主干网络,证实了该框架层面的主张:将每次推理的内存传输与总参数数量解耦。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:18

# Sigma-Branch: 面向动态推理的分层单路径网络重构,实现活跃参数减少

来源: https://arxiv.org/html/2606.09924  
Kohga Tanaka and Hiroaki Nishi  
本研究受JSPS KAKENHI (项目编号 JP26K02884) 资助。作者同样感谢 JST SIP 项目 (项目编号 JPJ012207) 的支持。  
K. Tanaka 在庆应义塾大学理工学研究科,地址:日本横滨市港北区 223-8522(电子邮箱:[email protected])。  
H. Nishi 在庆应义塾大学理工学部系统设计系,地址:日本横滨市港北区 223-8522。

###### 摘要

将深度神经网络部署在内存受限的边缘加速器上,其瓶颈在于每次推理所需的片外权重传输,而非计算:密集网络无法完全保留在片上,每个输入都必须加载所有参数。现有模型压缩方法通过永久降低模型容量来减少这种传输。我们提出 Sigma-Branch (Σ\\SigmaB) 框架,将预训练的密集网络重构为一个分层的二叉树结构,包含共享主干、分层路由器和专用叶子节点。通过基于激活的球形 k 均值聚类,将预训练权重分配到树中,同时初始化路由器权重和每个分支的通道分配;然后进行软路由微调,使每个叶子节点与其路由到的输入子集对齐。在推理时,生成的网络仅执行单一从根到叶的路径,在将完整密集参数集存储在内存中的同时,减少了活跃参数的占用。在 CIFAR-100 / ResNet-50、ImageNet-1K / ResNet-50 和 ModelNet40 / PointNet++ 上,Sigma-Branch 网络将每次推理的活跃参数减少了 58–60%,同时与密集基线 Top-1 的差距保持在 1.72 个百分点 (pp) 以内。在可比的 ImageNet-1K Top-1 下,活跃参数减少量比静态结构化剪枝 (FPGM、HRank) 高出 14–23 个百分点。跨越 2D 视觉和 3D 点云主干的跨模态评估,从框架层面证实了将每次推理的内存流量与总参数数量解耦的主张。

## I 引言

### I-A 背景

#### I-A1 深度学习模型的规模扩展

深度神经网络 (DNN) 通过规模扩展取得了显著进步:使用更多数据和算力训练的更大模型持续获得更高的准确率,从 ResNet [1](https://arxiv.org/html/2606.09924#bib.bib1) 等卷积主干,到拥有数亿参数的 Vision Transformer (ViT) [2](https://arxiv.org/html/2606.09924#bib.bib2)。这些模型设计时假设了数据中心级别的计算能力,并不自然适用于该场景之外的设备。

#### I-A2 边缘 AI 的重要性日益提升

与这种扩展趋势同时发生的是,越来越多的推理需要在网络边缘设备上执行,从手机到 FPGA 和微控制器 [3](https://arxiv.org/html/2606.09924#bib.bib3),原因包括低延迟、设备端隐私保护和无需网络运行等。这些平台的计算和内存容量比数据中心系统小数个数量级,并且推理通常以 batch size 1 运行,这使得直接部署大多数大规模模型变得不切实际。因此,面向边缘的视觉模型仍然主要以 CNN 为主(例如 ResNet [1](https://arxiv.org/html/2606.09924#bib.bib1)、MobileNet [4](https://arxiv.org/html/2606.09924#bib.bib4)、ConvNeXt [5](https://arxiv.org/html/2606.09924#bib.bib5))或基于 MLP 的 3D 数据模型 [6](https://arxiv.org/html/2606.09924#bib.bib6), [7](https://arxiv.org/html/2606.09924#bib.bib7),即使这些主干也在为了追求准确率而不断扩展,从而加剧了对边缘设备的计算和内存需求。

### I-B 问题陈述

#### I-B1 边缘上的内存受限加速器

现代 DNN 表现出 *静态* 的计算结构:无论输入难度如何,每个参数通常都要为每个输入访问。因此,对于超过片上内存容量的模型,每次推理都需要从内存中加载全部权重。

与此同时,边缘设备越来越多地配备 GPU 之外的加速器——FPGA、NPU、Edge TPU 和微控制器——其片上内存(例如 BRAM、SRAM)比数据中心系统小数个数量级。大多数实际模型无法完全放入片上,使得从片外 DRAM 加载权重成为这些平台的关键瓶颈。

在此类内存受限的设备上,权重加载直接影响推理延迟:每次推理加载的权重数量受限于可用内存带宽和片上容量。近期研究表明,对于大规模 DNN 在小的 batch size 下,权重加载时间占主导,而计算单元大部分时间处于空闲状态 [8](https://arxiv.org/html/2606.09924#bib.bib8)。边缘 GPU 也面临同样问题:例如,NVIDIA Jetson Orin Nano 提供 8 GB 板载内存,带宽为 68 GB/s,而数据中心级 NVIDIA H100 (SXM5) 提供 80 GB 内存和 3.35 TB/s 带宽——容量差一个数量级,带宽差大约两个数量级。实时边缘应用典型的 batch-size-1 机制进一步加剧了这一瓶颈。

因此,我们将减少 *活跃参数内存*(即单次推理必须加载的参数)确定为在内存受限边缘加速器上进行高效推理的关键考虑因素。

#### I-B2 减少内存占用的模型重构

现有的模型压缩技术——剪枝、知识蒸馏和量化——会永久性地减少总参数量 [9](https://arxiv.org/html/2606.09924#bib.bib9), [10](https://arxiv.org/html/2606.09924#bib.bib10)。然而,这种永久性减少可能会降低模型的表示能力。

一个补充方向是利用 DNN 推理中依赖于输入的稀疏性。经验证据表明,有效的计算子集随输入变化:DeepMoE 显示卷积层内的有用通道子集是依赖于输入的 [11](https://arxiv.org/html/2606.09924#bib.bib11),而 SkipNet 显示整个残差块可以根据输入被跳过 [12](https://arxiv.org/html/2606.09924#bib.bib12)。因此,为每一次推理都使用完整的参数集本质上是冗余的。

分支架构是利用这一观察的自然方式,同时 *将容量与计算解耦*。每个分支可以专门处理输入分布的一个子集,因此模型保留了完整的密集参数集,而非永久移除参数;同时,在推理时,只有主干加上单个分支是活跃的,从而直接减少内存占用,且不永久移除参数。

在本工作中,我们提出 Σ\\SigmaB(Sigma-Branch),一个基于激活的分层模型重构框架,支持单路径推理。在此框架内,我们开发了一个具体的实例化,即 Σ\\SigmaB-Method,这是第三节 (Section III) 中描述的转换过程,并将由其生成的网络称为 Σ\\SigmaB-Net。整篇论文中,Σ\\SigmaB 指代框架概念,Σ\\SigmaB-Method 指代在预训练模型上运行的过程,Σ\\SigmaB-Net 指代最终的网络,其推理行为和实验数据被报告。预训练模型被重构为分层分支网络,推理时仅执行单条路径。总参数量保持不变,而活跃参数内存大幅减少,评估聚焦于内存受限的边缘部署场景。

### I-C 本文贡献

本文的贡献如下。

- • **分层模型重构 (C1)**。我们提出了 Σ\\SigmaB-Method,一个将预训练网络转换为类似 MoE 的分层分支结构的框架,区别于扁平 MoE 风格的分解方式。
- • **跨模态适用性 (C2)**。我们在卷积网络 (ResNet-50) 和点云网络 (PointNet++) 上展示了该框架,确立了其在两种不同模态上的适用性。
- • **极端的活跃参数减少 (C3)**。在 CIFAR-100/ResNet-50、ImageNet/ResNet-50 和 ModelNet40/PointNet++ 上,Σ\\SigmaB-Net 实现了 58–60% 的活跃参数减少,同时保持了密集基线的分类准确率。这远远超过了相同压缩比下最先进的结构化剪枝基线 (FPGM, HRank)。

## II 相关工作

我们将先前的工作组织为两条线,以界定 Σ\\SigmaB-Method 的定位:静态结构化剪枝,它永久性地缩小模型图 (第 II-A 节);以及混合专家和分层分解,它重构密集网络以实现依赖于输入的计算路径 (第 II-B 节)。然后,我们从四个设计轴线上将 Σ\\SigmaB-Method 与代表性方法进行对比 (第 II-C 节)。

### II-A 静态结构化剪枝

静态结构化剪枝以与输入无关的方式,永久性地从预训练网络中移除冗余的滤波器或通道。已经提出了多种重要性准则来识别哪些参数应该丢弃,每个准则提供了滤波器或通道冗余的不同视角,并在可比准确率下展示了可测量的压缩收益。代表性的重要性准则包括滤波器间的几何中位数距离 (FPGM [13](https://arxiv.org/html/2606.09924#bib.bib13)) 和特征图秩 (HRank [14](https://arxiv.org/html/2606.09924#bib.bib14))。

然而,这条线共享一个结构上的局限性,这激发了本工作。由于参数移除是永久性的,剪枝后的网络具有严格低于密集基线的表示能力;这种损失已被证明会对少数类别和不典型样本产生不成比例的影响 [15](https://arxiv.org/html/2606.09924#bib.bib15),这符合第一节 I-B 中讨论的表示能力动机。

### II-B 混合专家和分层分解

一条补充的路线通过将网络分解为专家或专门的子网络树,引入依赖于输入的路径。传统的混合专家 (MoE) 通过添加许多专家分支并将每个输入仅路由到其中 top-k 个来增加容量:稀疏门控 MoE [16](https://arxiv.org/html/2606.09924#bib.bib16) 和 DeepSeekMoE [17](https://arxiv.org/html/2606.09924#bib.bib17) 都遵循这种扩展策略,其中总参数量大致随专家数量增长。虽然这对扩展大型语言模型有效,但不太适合内存受限的边缘加速器,因为这些加速器的片上容量限制了总参数量,而不仅仅是活跃参数量。

第二条线保持预训练密集网络的总参数量不变,而是将其分割成专家或一个树。DeepMoE 通过使用浅层嵌入网络对通道子集进行门控,将样本级别的通道路由引入卷积主干 [11](https://arxiv.org/html/2606.09924#bib.bib11);路由是每个输入进行的,但结构保持扁平,没有跨输入子网络的共享主干。近期的一系列工作仅使用神经元激活统计信息,将预训练 Transformer 的前馈 (FFN) 子层分析地重构为混合专家,无需重新训练 [18](https://arxiv.org/html/2606.09924#bib.bib18)。然而,这种重构局限于基于 Transformer 的大型语言模型中的 FFN 子层:注意力模块仍然是密集的,因此全模型的活跃参数减少受限于 FFN 占总计算的比例,而不是应用于整个网络,并且这种构造不扩展到卷积或点云主干。DecisioNet 将 CNN 转换为专用子网络的二叉树,并在推理时将每个输入通过单一路由路径 [19](https://arxiv.org/html/2606.09924#bib.bib19),从结构上看,这是与 Σ\\SigmaB-Method 最接近的先前工作;然而,它的树分裂是由标签导出的类别混淆层次结构监督的,并且其评估仅限于卷积主干。

### II-C Sigma-Branch 方法的定位

表 I (Table I) 从四个设计轴线将 Σ\\SigmaB-Method 与两条路线中的代表性方法进行对比,这些轴线直接源于第一节 I-B 中建立的要求。

表 I: Sigma-Branch 方法与代表性压缩和动态推理方法的定位。✓:满足;–:不满足。
*分层* 结构能够实现渐进式容量分解:共享的主干为每个样本携带通用特征,而深层叶子节点专门处理输入聚类,从而实现了扁平 MoE 无法获得的局部共享。*无监督* 的基于激活统计的划分是必要的,当类别标签层次结构不可用或与可学习的特征结构不匹配时,包括 3D 点云基准(没有规范的标签树)。*样本级* 路由是图像和点云输入的自然粒度,Transformer 中的 token 级前馈切片不适用,并且它匹配边缘推理的 batch-size-1 机制。最后,*跨模态* 验证对于证实框架层面的主张(而非特定架构的结果)是必要的。据我们所知,Σ\\SigmaB-Method 是上述讨论中唯一同时满足所有四个轴线的方法,这些轴线是激发本工作的内存受限边缘场景所要求的 (第一节 I-B)。

## III Sigma-Branch 方法

现在我们描述 Σ\\sigmaB-Method,一个将预训练密集网络重构为分层单路径推理网络的框架,我们称之为 Σ\\sigmaB-Net。该框架包含四个部分:分层二叉树架构的形式化规范 (第 III-A 节 – III-B 节);基于激活的权重分配过程,将预训练权重迁移到新架构中 (第 III-C 节);带有专家分类损失和路由责任损失的软路由微调协议 (第 III-D 节);以及每次输入仅执行单一路径的硬 top-1 推理过程 (第 III-E 节)。在本节中,我们使用一个 2 级、4 叶的实例化作为规范示例。二元路由提供了一个简单的递归分解规则,兼容基于激活的球形 k 均值初始化:每个分裂将特征空间划分为两个子聚类,同时保持路由器轻量级,并且路由深度是叶子数量的对数。因此,本工作中使用的 (2,4) 层次结构旨在作为最小的规范实例化,而不是对最优树大小的主张。该框架自然地适用于更深的树,我们在第 III-F 节中将其实例化到两个不同的主干上。

相似文章

大步长梯度下降恢复多路径深度线性网络中的对称性

arXiv cs.LG

本文证明,使用大步长的离散梯度下降能够恢复多路径深度线性网络中的对称性,这与梯度流所预测的对称性破缺相反,并导致跨路径的信号重新平衡。作者从理论上证明,平衡解比稀疏解更平坦(锐度更低),且大的学习率驱动网络朝着稳定、平衡的配置发展。

SNLP: 基于结构化牛顿校正的层并行推理

Hugging Face Daily Papers

本文介绍了SNLP,这是一个通过用结构化近似替代精确牛顿校正来实现Transformer层并行推理的框架,在0.5B模型上实现了高达2.3倍的加速,同时降低了困惑度。