面向Transformer模型压缩的鲁棒B样条解耦方法

arXiv cs.LG 论文

摘要

本文介绍了一种基于B样条的Transformer模型压缩解耦框架,并提出了一种鲁棒交替最小二乘算法(R-CMTF-BSD),该算法在Vision Transformer和Swin Transformer架构上实现了显著的参数减少,同时保持了具有竞争力的准确率。

arXiv:2605.18794v1 公告类型:新 摘要:解耦是一种强大的建模范式,用于将多元函数表示为线性变换与单变量非线性函数的组合。单层解耦可视为具有单隐藏层和灵活激活函数的全连接神经网络,与神经网络直接相关。因此,解耦方法在神经网络领域(尤其是压缩场景)中越来越受关注,因为它能够通过减少参数复杂度实现结构化近似。现有的基于张量的解耦方法通常依赖内部非线性函数的多项式或分段线性参数化,这些方法可能存在数值不稳定或表达能力有限的问题。本文引入了一种基于B样条的解耦框架,对现有方法进行了推广。通过利用B样条的局部支撑性和灵活的光滑性控制,所提出的公式能够产生数值更稳定且表达能力更强的表示。我们推导了一种约束耦合矩阵-张量分解,并提出了鲁棒交替最小二乘算法R-CMTF-BSD,该算法整合了归一化和吉洪诺夫正则化。通过合成数据和Transformer模型压缩实验验证了所提方法。在Vision Transformer和Swin Transformer架构上的结果表明,B样条解耦能够在保持竞争力准确率的同时实现显著的参数减少,使R-CMTF-BSD算法成为结构化神经网络压缩的有力工具。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:34

# 用于Transformer模型压缩的鲁棒B样条解耦
来源:https://arxiv.org/abs/2605.18794
查看PDF (https://arxiv.org/pdf/2605.18794) HTML \(实验性\) (https://arxiv.org/html/2605.18794v1)

> 摘要:解耦是一种强大的建模范式,用于将多元函数表示为线性变换与单变量非线性函数的组合。单层解耦可视为具有单个隐藏层和灵活激活函数的全连接神经网络,与神经网络建立了直接联系。因此,解耦方法在神经网络领域,尤其是压缩方面,受到越来越多的关注,因为它能够实现参数复杂度降低的结构化近似。现有的基于张量的解耦方法通常依赖于内部非线性函数的多项式或分段线性参数化,这些方法可能存在数值不稳定或表达能力有限的问题。本文引入了一种基于B样条的解耦框架,该框架推广了现有方法。通过利用B样条的局部支撑性和灵活平滑度控制,所提出的公式能够产生数值更稳定、表达能力更强的表示。我们推导出一种约束耦合矩阵-张量分解,并提出一种鲁棒的交替最小二乘算法,称为R-CMTF-BSD,该算法结合了归一化和Tikhonov正则化。通过在合成数据和Transformer模型压缩上的实验验证了所提出方法的有效性。在Vision Transformer和Swin Transformer架构上的结果表明,B样条解耦能够在保持竞争精度的情况下大幅减少参数,使得R-CMTF-BSD算法成为结构化神经网络压缩的一种有前景的工具。

## 提交历史

来自:Joppe De Jonghe [查看电子邮件](https://arxiv.org/show-email/c415f5fd/2605.18794) **\[v1\]**2026年5月11日星期一 06:37:36 UTC (1,427 KB)

相似文章

Transformer 残差流的动力学:谱几何与网络拓扑的耦合

arXiv cs.LG

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。

BA-T: 一种用于两视图束调整的迭代Transformer

Hugging Face Daily Papers

BA-T是一种用于两视图束调整的迭代Transformer架构,通过轻量设计仅使用传统解码器16%的参数,提升3D重建精度和跨视图一致性,性能与更大模型相当甚至更优。