Sigma-Branch: 面向动态推理的分层单路径网络重构，减少活跃参数

arXiv cs.LG 2026/06/10 04:00 论文

dynamic-inference model-compression edge-ai hierarchical-network active-parameters clustering pruning

摘要

Sigma-Branch 将预训练的稠密网络重构成一个层次化二叉树结构，包含共享主干、路由器和专用叶子节点。在 CIFAR-100、ImageNet-1K 和 ModelNet40 上，每次推理的活跃参数减少 58-60%，同时精度下降不超过基线精确率的 1.72 个百分点。

arXiv:2606.09924v1 公告类型：新摘要：在内存受限的边缘加速器上部署深度神经网络时，瓶颈在于每次推理所需的片外权重传输，而非计算本身：稠密网络无法完全保留在芯片上，每个输入都必须加载所有参数。现有的模型压缩方法虽能减少传输量，但会永久性损失模型容量。我们提出 Sigma-Branch (SigmaB) 框架，将预训练的稠密网络重构成一个层次化二叉树，包含共享主干、层次化路由器和专用叶子节点。预训练权重通过基于激活的球形 k-means 聚类分布在树中，该聚类联合初始化路由器权重和每个分支的通道分配；随后通过软路由微调使每个叶子节点与其路由的输入子集对齐。推理时，结果网络仅执行一条从根到叶子的路径，从而在内存中存储完整稠密参数集的同时减少活跃参数占用。在 CIFAR-100 / ResNet-50、ImageNet-1K / ResNet-50 和 ModelNet40 / PointNet++ 上，SigmaB-Net 将每次推理的活跃参数减少 58-60%，同时与稠密基线 Top-1 精度相比保持在 1.72 个百分点 (pp) 以内。在相似的 ImageNet-1K Top-1 精度下，活跃参数减少量比静态结构化剪枝 (FPGM, HRank) 高出 14-23 pp。跨模态评估涵盖了 2D 视觉和 3D 点云主干网络，证实了该框架层面的主张：将每次推理的内存传输与总参数数量解耦。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:18

# Sigma-Branch: 面向动态推理的分层单路径网络重构，实现活跃参数减少

来源: https://arxiv.org/html/2606.09924  
Kohga Tanaka and Hiroaki Nishi  
本研究受JSPS KAKENHI (项目编号 JP26K02884) 资助。作者同样感谢 JST SIP 项目 (项目编号 JPJ012207) 的支持。  
K. Tanaka 在庆应义塾大学理工学研究科，地址：日本横滨市港北区 223-8522（电子邮箱：[email protected]）。  
H. Nishi 在庆应义塾大学理工学部系统设计系，地址：日本横滨市港北区 223-8522。

###### 摘要

将深度神经网络部署在内存受限的边缘加速器上，其瓶颈在于每次推理所需的片外权重传输，而非计算：密集网络无法完全保留在片上，每个输入都必须加载所有参数。现有模型压缩方法通过永久降低模型容量来减少这种传输。我们提出 Sigma-Branch (Σ\\SigmaB) 框架，将预训练的密集网络重构为一个分层的二叉树结构，包含共享主干、分层路由器和专用叶子节点。通过基于激活的球形 k 均值聚类，将预训练权重分配到树中，同时初始化路由器权重和每个分支的通道分配；然后进行软路由微调，使每个叶子节点与其路由到的输入子集对齐。在推理时，生成的网络仅执行单一从根到叶的路径，在将完整密集参数集存储在内存中的同时，减少了活跃参数的占用。在 CIFAR-100 / ResNet-50、ImageNet-1K / ResNet-50 和 ModelNet40 / PointNet++ 上，Sigma-Branch 网络将每次推理的活跃参数减少了 58–60%，同时与密集基线 Top-1 的差距保持在 1.72 个百分点 (pp) 以内。在可比的 ImageNet-1K Top-1 下，活跃参数减少量比静态结构化剪枝 (FPGM、HRank) 高出 14–23 个百分点。跨越 2D 视觉和 3D 点云主干的跨模态评估，从框架层面证实了将每次推理的内存流量与总参数数量解耦的主张。

## I 引言

### I-A 背景

#### I-A1 深度学习模型的规模扩展

深度神经网络 (DNN) 通过规模扩展取得了显著进步：使用更多数据和算力训练的更大模型持续获得更高的准确率，从 ResNet [1](https://arxiv.org/html/2606.09924#bib.bib1) 等卷积主干，到拥有数亿参数的 Vision Transformer (ViT) [2](https://arxiv.org/html/2606.09924#bib.bib2)。这些模型设计时假设了数据中心级别的计算能力，并不自然适用于该场景之外的设备。

#### I-A2 边缘 AI 的重要性日益提升

与这种扩展趋势同时发生的是，越来越多的推理需要在网络边缘设备上执行，从手机到 FPGA 和微控制器 [3](https://arxiv.org/html/2606.09924#bib.bib3)，原因包括低延迟、设备端隐私保护和无需网络运行等。这些平台的计算和内存容量比数据中心系统小数个数量级，并且推理通常以 batch size 1 运行，这使得直接部署大多数大规模模型变得不切实际。因此，面向边缘的视觉模型仍然主要以 CNN 为主（例如 ResNet [1](https://arxiv.org/html/2606.09924#bib.bib1)、MobileNet [4](https://arxiv.org/html/2606.09924#bib.bib4)、ConvNeXt [5](https://arxiv.org/html/2606.09924#bib.bib5)）或基于 MLP 的 3D 数据模型 [6](https://arxiv.org/html/2606.09924#bib.bib6), [7](https://arxiv.org/html/2606.09924#bib.bib7)，即使这些主干也在为了追求准确率而不断扩展，从而加剧了对边缘设备的计算和内存需求。

### I-B 问题陈述

#### I-B1 边缘上的内存受限加速器

现代 DNN 表现出 *静态* 的计算结构：无论输入难度如何，每个参数通常都要为每个输入访问。因此，对于超过片上内存容量的模型，每次推理都需要从内存中加载全部权重。

与此同时，边缘设备越来越多地配备 GPU 之外的加速器——FPGA、NPU、Edge TPU 和微控制器——其片上内存（例如 BRAM、SRAM）比数据中心系统小数个数量级。大多数实际模型无法完全放入片上，使得从片外 DRAM 加载权重成为这些平台的关键瓶颈。

在此类内存受限的设备上，权重加载直接影响推理延迟：每次推理加载的权重数量受限于可用内存带宽和片上容量。近期研究表明，对于大规模 DNN 在小的 batch size 下，权重加载时间占主导，而计算单元大部分时间处于空闲状态 [8](https://arxiv.org/html/2606.09924#bib.bib8)。边缘 GPU 也面临同样问题：例如，NVIDIA Jetson Orin Nano 提供 8 GB 板载内存，带宽为 68 GB/s，而数据中心级 NVIDIA H100 (SXM5) 提供 80 GB 内存和 3.35 TB/s 带宽——容量差一个数量级，带宽差大约两个数量级。实时边缘应用典型的 batch-size-1 机制进一步加剧了这一瓶颈。

因此，我们将减少 *活跃参数内存*（即单次推理必须加载的参数）确定为在内存受限边缘加速器上进行高效推理的关键考虑因素。

#### I-B2 减少内存占用的模型重构

现有的模型压缩技术——剪枝、知识蒸馏和量化——会永久性地减少总参数量 [9](https://arxiv.org/html/2606.09924#bib.bib9), [10](https://arxiv.org/html/2606.09924#bib.bib10)。然而，这种永久性减少可能会降低模型的表示能力。

一个补充方向是利用 DNN 推理中依赖于输入的稀疏性。经验证据表明，有效的计算子集随输入变化：DeepMoE 显示卷积层内的有用通道子集是依赖于输入的 [11](https://arxiv.org/html/2606.09924#bib.bib11)，而 SkipNet 显示整个残差块可以根据输入被跳过 [12](https://arxiv.org/html/2606.09924#bib.bib12)。因此，为每一次推理都使用完整的参数集本质上是冗余的。

分支架构是利用这一观察的自然方式，同时 *将容量与计算解耦*。每个分支可以专门处理输入分布的一个子集，因此模型保留了完整的密集参数集，而非永久移除参数；同时，在推理时，只有主干加上单个分支是活跃的，从而直接减少内存占用，且不永久移除参数。

在本工作中，我们提出 Σ\\SigmaB（Sigma-Branch），一个基于激活的分层模型重构框架，支持单路径推理。在此框架内，我们开发了一个具体的实例化，即 Σ\\SigmaB-Method，这是第三节 (Section III) 中描述的转换过程，并将由其生成的网络称为 Σ\\SigmaB-Net。整篇论文中，Σ\\SigmaB 指代框架概念，Σ\\SigmaB-Method 指代在预训练模型上运行的过程，Σ\\SigmaB-Net 指代最终的网络，其推理行为和实验数据被报告。预训练模型被重构为分层分支网络，推理时仅执行单条路径。总参数量保持不变，而活跃参数内存大幅减少，评估聚焦于内存受限的边缘部署场景。

### I-C 本文贡献

本文的贡献如下。

- • **分层模型重构 (C1)**。我们提出了 Σ\\SigmaB-Method，一个将预训练网络转换为类似 MoE 的分层分支结构的框架，区别于扁平 MoE 风格的分解方式。
- • **跨模态适用性 (C2)**。我们在卷积网络 (ResNet-50) 和点云网络 (PointNet++) 上展示了该框架，确立了其在两种不同模态上的适用性。
- • **极端的活跃参数减少 (C3)**。在 CIFAR-100/ResNet-50、ImageNet/ResNet-50 和 ModelNet40/PointNet++ 上，Σ\\SigmaB-Net 实现了 58–60% 的活跃参数减少，同时保持了密集基线的分类准确率。这远远超过了相同压缩比下最先进的结构化剪枝基线 (FPGM, HRank)。

## II 相关工作

我们将先前的工作组织为两条线，以界定 Σ\\SigmaB-Method 的定位：静态结构化剪枝，它永久性地缩小模型图 (第 II-A 节)；以及混合专家和分层分解，它重构密集网络以实现依赖于输入的计算路径 (第 II-B 节)。然后，我们从四个设计轴线上将 Σ\\SigmaB-Method 与代表性方法进行对比 (第 II-C 节)。

### II-A 静态结构化剪枝

静态结构化剪枝以与输入无关的方式，永久性地从预训练网络中移除冗余的滤波器或通道。已经提出了多种重要性准则来识别哪些参数应该丢弃，每个准则提供了滤波器或通道冗余的不同视角，并在可比准确率下展示了可测量的压缩收益。代表性的重要性准则包括滤波器间的几何中位数距离 (FPGM [13](https://arxiv.org/html/2606.09924#bib.bib13)) 和特征图秩 (HRank [14](https://arxiv.org/html/2606.09924#bib.bib14))。

然而，这条线共享一个结构上的局限性，这激发了本工作。由于参数移除是永久性的，剪枝后的网络具有严格低于密集基线的表示能力；这种损失已被证明会对少数类别和不典型样本产生不成比例的影响 [15](https://arxiv.org/html/2606.09924#bib.bib15)，这符合第一节 I-B 中讨论的表示能力动机。

### II-B 混合专家和分层分解

一条补充的路线通过将网络分解为专家或专门的子网络树，引入依赖于输入的路径。传统的混合专家 (MoE) 通过添加许多专家分支并将每个输入仅路由到其中 top-k 个来增加容量：稀疏门控 MoE [16](https://arxiv.org/html/2606.09924#bib.bib16) 和 DeepSeekMoE [17](https://arxiv.org/html/2606.09924#bib.bib17) 都遵循这种扩展策略，其中总参数量大致随专家数量增长。虽然这对扩展大型语言模型有效，但不太适合内存受限的边缘加速器，因为这些加速器的片上容量限制了总参数量，而不仅仅是活跃参数量。

第二条线保持预训练密集网络的总参数量不变，而是将其分割成专家或一个树。DeepMoE 通过使用浅层嵌入网络对通道子集进行门控，将样本级别的通道路由引入卷积主干 [11](https://arxiv.org/html/2606.09924#bib.bib11)；路由是每个输入进行的，但结构保持扁平，没有跨输入子网络的共享主干。近期的一系列工作仅使用神经元激活统计信息，将预训练 Transformer 的前馈 (FFN) 子层分析地重构为混合专家，无需重新训练 [18](https://arxiv.org/html/2606.09924#bib.bib18)。然而，这种重构局限于基于 Transformer 的大型语言模型中的 FFN 子层：注意力模块仍然是密集的，因此全模型的活跃参数减少受限于 FFN 占总计算的比例，而不是应用于整个网络，并且这种构造不扩展到卷积或点云主干。DecisioNet 将 CNN 转换为专用子网络的二叉树，并在推理时将每个输入通过单一路由路径 [19](https://arxiv.org/html/2606.09924#bib.bib19)，从结构上看，这是与 Σ\\SigmaB-Method 最接近的先前工作；然而，它的树分裂是由标签导出的类别混淆层次结构监督的，并且其评估仅限于卷积主干。

### II-C Sigma-Branch 方法的定位

表 I (Table I) 从四个设计轴线将 Σ\\SigmaB-Method 与两条路线中的代表性方法进行对比，这些轴线直接源于第一节 I-B 中建立的要求。

表 I: Sigma-Branch 方法与代表性压缩和动态推理方法的定位。✓：满足；–：不满足。
*分层* 结构能够实现渐进式容量分解：共享的主干为每个样本携带通用特征，而深层叶子节点专门处理输入聚类，从而实现了扁平 MoE 无法获得的局部共享。*无监督* 的基于激活统计的划分是必要的，当类别标签层次结构不可用或与可学习的特征结构不匹配时，包括 3D 点云基准（没有规范的标签树）。*样本级* 路由是图像和点云输入的自然粒度，Transformer 中的 token 级前馈切片不适用，并且它匹配边缘推理的 batch-size-1 机制。最后，*跨模态* 验证对于证实框架层面的主张（而非特定架构的结果）是必要的。据我们所知，Σ\\SigmaB-Method 是上述讨论中唯一同时满足所有四个轴线的方法，这些轴线是激发本工作的内存受限边缘场景所要求的 (第一节 I-B)。

## III Sigma-Branch 方法

现在我们描述 Σ\\sigmaB-Method，一个将预训练密集网络重构为分层单路径推理网络的框架，我们称之为 Σ\\sigmaB-Net。该框架包含四个部分：分层二叉树架构的形式化规范 (第 III-A 节 – III-B 节)；基于激活的权重分配过程，将预训练权重迁移到新架构中 (第 III-C 节)；带有专家分类损失和路由责任损失的软路由微调协议 (第 III-D 节)；以及每次输入仅执行单一路径的硬 top-1 推理过程 (第 III-E 节)。在本节中，我们使用一个 2 级、4 叶的实例化作为规范示例。二元路由提供了一个简单的递归分解规则，兼容基于激活的球形 k 均值初始化：每个分裂将特征空间划分为两个子聚类，同时保持路由器轻量级，并且路由深度是叶子数量的对数。因此，本工作中使用的 (2,4) 层次结构旨在作为最小的规范实例化，而不是对最优树大小的主张。该框架自然地适用于更深的树，我们在第 III-F 节中将其实例化到两个不同的主干上。

Sigma-Branch: 面向动态推理的分层单路径网络重构，减少活跃参数

相似文章

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

基于多臂赌博机的深度神经网络结构化神经元剪枝

大步长梯度下降恢复多路径深度线性网络中的对称性

知识卸载：将大语言模型分解为稀疏骨干网络与记忆模块

SNLP: 基于结构化牛顿校正的层并行推理

提交意见反馈