SURGE:二元神经网络中的代理梯度适配
摘要
本文介绍了 SURGE,这是一种新颖的可学习梯度补偿框架,用于训练二元神经网络,旨在解决直通估计器等传统方法中存在的梯度失配和信息丢失问题。
查看缓存全文
缓存时间: 2026/05/13 06:25
# 二值神经网络中的替代梯度适应 来源: https://arxiv.org/html/2605.10989 Boyu Liu, Linlin Yang, Yanjing Li, Yuguang Yang, Xuhui Liu, Canyu Chen, Zhongqian Fu, Baochang Zhang ###### 摘要 二值神经网络(BNNs)的训练从根本上依赖于对不可微分二值化操作(*例如*,`sign`函数)的梯度近似。然而,包括直通估计器(STE)及其改进变体在内的现有方法,依赖于手工设计,存在由于固定范围梯度裁剪导致的梯度失配问题和信息损失。为了解决这一问题,我们提出了 SURrogate GradiEnt Adaptation(SURGE),这是一种具有理论基础的、新颖的可学习梯度补偿框架。SURGE 通过辅助反向传播来缓解梯度失配。具体而言,我们设计了一种双路径梯度补偿器(DPGC),它为每个二值化层构建一个并行的高精度辅助分支,并在反向传播期间通过输出分解解耦梯度流。DPGC 利用高精度分支估计超出 STE 一阶近似范围的组件,从而实现偏差减小的梯度估计。为了进一步增强训练稳定性,我们基于最优缩放因子引入了一种自适应梯度缩放器(AGS),通过基于范数的缩放动态平衡分支间的梯度贡献。在图像分类、目标检测和语言理解任务上的实验表明,SURGE 的表现优于最先进的方法。 量化感知训练,二值神经网络,模型量化,模型压缩 ## 1 引言 深度神经网络(DNNs)在各个领域取得了显著的成功 (He et al., 2016; Vaswani, 2017),最先进架构中的模型参数规模从百万级增长到十亿级 (Brown et al., 2020; Yang et al., 2024)。然而,其日益增加的计算复杂度和内存需求对在资源受限场景中的部署构成了重大挑战。为了解决这一挑战,人们开发了许多模型压缩技术以提高部署效率 (He and Xiao, 2023; Hinton et al., 2014; Liu et al., 2025; Yu et al., 2017),每种技术都在压缩率、推理加速和精度保留之间提供了不同的权衡。与结构压缩方法(*例如*,剪枝)不同,量化 (Esser et al., 2019; Hubara et al., 2021; Wang et al., 2022; Xue et al., 2023) 通过降低位宽来实现压缩,而不修改网络架构。降低位宽表示显著减少了存储需求,同时通过低精度操作实现了计算加速。 作为量化的一种极端形式,二值化 (Courbariaux et al., 2015, 2016; Gong et al., 2019; Xue et al., 2021b, 2022a) 使用 1-bit 值来表示权重和激活,理论上与全精度网络相比,能够实现 $32\times$ 的内存减少和 $58\times$ 的计算加速 (Rastegari et al., 2016)。二值化的这些效率优势使其特别适用于计算资源严重受限的边缘计算设备,并且其有效性已在多种任务中得到证明,例如分类 (Xue et al., 2021c)、目标检测 (Xue et al., 2022b) 和自然语言理解 (Qin et al., 2022)。 > **图 1:** (a-b) 无/有 SURGE 的激活梯度模式(左/右);(c) 梯度分布比较;(d) 梯度的累积概率。STE 为 `sign` 函数的梯度提供了一阶近似并裁剪了范围外的激活梯度,而 SURGE 通过双路径梯度补偿器对其进行了补偿 (a-b)。SURGE 还右移了激活的梯度分布 (c-d),验证了其在纠正 STE 引起的失配方面的有效性。 尽管取得了相当大的进展,二值神经网络(BNNs)与其全精度 counterpart 之间仍存在不可忽略的性能差距 (Rastegari et al., 2016)。这种差异主要源于二值与连续值权重和激活之间巨大的表示分歧。具体而言,BNNs 的训练包含了具有确定性或随机性二值化操作的实值张量的量化 (Courbariaux et al., 2016)。然而,二值化操作的不可微分性质和梯度消失给反向传播带来了重大挑战。 为了解决训练问题,直通估计器(STE)(Bengio et al., 2013) 为二值化操作提供了一种有效的梯度近似方法。具体而言,在反向传播期间,STE 直接用 `Identity` 函数的导数替代二值化操作(*例如*,`sign` 函数)的梯度,从而实现了稳定的参数优化。尽管 STE 在训练 BNNs 和低比特网络中广泛应用,但它存在一些固有的局限性,仍有待解决。一方面,由于 `sign` 函数的梯度在除零点以外的所有地方都消失,采用固定值梯度近似不可避免地会引入估计偏差和优化不稳定性 (Qin et al., 2020)。为了减少 STE 的梯度误差,后续方法主要依赖启发式量化器设计 (Liu et al., 2019; Gong et al., 2019),例如分段多项式函数 (Liu et al., 2018b) 和 SignSwish 激活函数 (Darabi et al., 2018),这些方法无法保证找到最优的梯度近似。 另一方面,在 STE 的反向传播期间,采用梯度裁剪仅保留零附近(通常为 $[-1, 1]$)输入的梯度,这在经验上提高了模型精度 (Courbariaux et al., 2016)。然而,对于二值化表示(特别是激活量化)来说,应用固定范围的梯度裁剪并非最优,因为裁剪范围外的值的梯度信息被丢弃了 (Qin et al., 2020)。现有的二值化方法 largely 忽略了梯度裁剪范围的影响,因为只有少数研究提出了手工设计的渐近函数来逐渐逼近硬二值化函数 (Gong et al., 2019; Qin et al., 2020)。因此,仅仅使用 STE 和改进的估计器 (Rastegari et al., 2016; Gong et al., 2019; Xue et al., 2022a; Jin et al., 2025) 无法为二值化操作获得准确的梯度近似,因为在反向过程中积累了不可忽略的梯度失配 (Qin et al., 2020),需要显式的梯度校正。 本文提出了 SURrogate GradiEnt Adaptation(SURGE),这是一种新颖的可学习梯度补偿策略,通过辅助反向传播来解决梯度失配问题。虽然 STE 或改进的估计器为二值化操作提供了替代梯度,但 SURGE 为二值神经网络提供了增强的梯度适应。具体而言,我们设计了一种双路径梯度补偿器(DPGC),它为每个二值化层(称为主分支)构建一个并行的高精度参数化分支(称为辅助分支)。特别地,DPGC 将每层的输出分解来自主分支和辅助分支的贡献,从而在反向传播期间将梯度流解耦为两部分。因此,DPGC 确保辅助分支仅影响反向梯度,同时在正向传递中保持原始层输出不变。与二值分支相比,高精度分支可以提供偏差更小的梯度 (Stooke et al., 2021),通过学习高阶项来补偿 STE 的一阶近似 (Liu et al., 2023) 误差。如图 1 (a) 所示,STE 的固定裁剪*清零*了大片区域的激活梯度;(b) 使用 SURGE 后,辅助分支注入补偿梯度,同时保持正向输出不变,明显恢复了被裁剪的区域。(c)-(d) 中的聚合统计数据显示梯度分布右移且累积曲线尾部更重,表明 SURGE 恢复了超出 STE 一阶替代范围的富有信息的梯度。 此外,来自辅助路径的大幅度梯度可能会不利影响主分支的收敛。为了解决这个问题,我们提出了一种自适应梯度缩放器(AGS),通过基于范数的缩放动态平衡分支间的梯度贡献,从而确保稳定且有效的补偿。为了验证 SURGE 的有效性,我们在两个图像分类基准、一个目标检测基准、一个语言理解基准套件上进行了全面的对比实验,我们的方法在各个方面均达到了最先进的性能。总结来说,本文的主要贡献如下: - 我们提出了 SURrogate GradiEnt Adaptation(SURGE),这是一种新颖的梯度补偿框架,采用双路径梯度补偿器来解决梯度失配问题。我们的方法不修改正向传递的输出,且在推理时不引入额外开销。 - 我们引入了一种自适应梯度缩放器(AGS),基于理论推导的最优缩放因子,动态均衡来自二值分支和辅助分支的梯度贡献。 - 广泛的实验表明,SURGE 在 BNN 训练的四个标准基准上达到了最先进的性能。具体而言,经过 SURGE 训练的二值化 ResNet-18 在 ImageNet 上通过单阶段训练达到了 62.0% 的 top-1 准确率,显著超过了之前的 SOTA 方法(*例如*,在 ImageNet 上相比 ReCU 和 IR-Net 分别提高了 1.0% 和 3.9% 的 top-1 准确率)。 ## 2 相关工作 ### 2.1 梯度近似 梯度近似是训练具有不可微分算子的神经网络的基础,解决了离散采样 (Sutton et al., 1999; Schulman et al., 2015; Athalye et al., 2018; Rezende et al., 2014)、架构搜索 (Xie et al., 2018; Liu et al., 2018a; Cai et al., 2018) 以及特别是量化 (Esser et al., 2020; Gong et al., 2019; Liu et al., 2018b, 2020; Xue et al., 2022a) 方面的挑战。流行的梯度估计器家族是直通估计器(STE),它直接将梯度通过不可微分函数传播。直通的想法源自感知器算法 (Rosenblatt, 1957),该算法利用修改后的链式法则,并使用 `Identity` 函数作为二进制输出函数原始导数的代理。(Bengio et al., 2013) 通过使用 sigmoid 等非线性函数改进了这种方法,而 (Jang et al., 2016) 进一步结合了 Gumbel 重参数化,通过温度退火的连续松弛重参数化离散变量,实现了类别采样的低方差梯度估计。在量化领域,DSQ (Gong et al., 2019) 采用参数化 sigmoid 函数逐步逼近不可微分量化函数的梯度,而 LSQ (Esser et al., 2020) 引入了缩放因子以实现端到端的梯度传播,推进了低比特量化。BONN (Zhao et al., 2022) 集成贝叶斯优化以指导可微分的二值化策略,而 FDA-BNN (Xue et al., 2021b) 将 `sign` 函数转换到频域以减轻梯度失配。 ### 2.2 二值神经网络 二值神经网络的开创性工作专注于二值化架构设计 (Liu et al., 2018b; Xue et al., 2021b; Liu et al., 2020; Bulat et al., 2020; Yang et al., 2020) 或训练策略 (Courbariaux et al., 2015; Rastegari et al., 2016; Qin et al., 2020; Xue et al., 2021c, 2022a)。在架构设计方面,Bi-Real Net (Liu et al., 2018b) 增强了跳跃连接,而 FDA-BNN (Xue et al., 2021b) 在频域中引入了可微分的二值化单元。此外,ReActNet (Liu et al., 2020) 用基于可学习阈值的 RSign 和 RPReLU 替代了 `sign` 函数和 PReLU (He et al., 2015)。像 BATS (Bulat et al., 2020) 和 SLB (Yang et al., 2020) 这样的方法将 BNNs 与神经架构搜索相结合。在
相似文章
Block-Wise Differentiable Sinkhorn Attention: Tail-Refinement Gradients with a Gap-Aware Dustbin Bridge
This paper presents Block-Wise Differentiable Sinkhorn Attention, a method for efficient long-context balanced entropic optimal transport attention on TPU hardware. It introduces a tail-refinement surrogate for exact differentiation, proving an efficient backward pass schedule and demonstrating significant improvements in Pfam sequence alignment reconstruction.
基于归因的神经元效用用于深度网络中的可塑性恢复
本文引入了梯度乘以参考差值(GXD),这是一种具有理论依据的效用度量方法,旨在通过归因神经元效用来在持续学习过程中恢复深度网络的可塑性。文章指出,与激活幅度等现有代理信号相比,GXD 能够提供更可靠的干预成本估计。
神经 GPU 的扩展与局限性
本文探讨了神经 GPU 模型的扩展与局限性,通过课程设计和规模扩展展示了改进方案,使其能够学习十进制数和长表达式的算术运算,同时识别出对称输入上的失败模式,这些模式类似于对抗样本。
用对抗样本攻击机器学习
本文讨论了针对机器学习模型的对抗攻击,并展示了梯度掩蔽(一种试图拒绝攻击者访问有用梯度的防御技术)为何从根本上是无效的。论文表明,攻击者可以通过训练能够模拟被防御模型行为的替代模型来绕过梯度掩蔽,最终使这一防御策略失效。
ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]
ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。