Squeeze-Release: 迭代剪枝与精确结构最小化
摘要
本文介绍了Squeeze-Release,一种实现精确结构最小化的迭代剪枝方法。
查看缓存全文
缓存时间: 2026/06/15 16:59
论文页面 - Squeeze-Release: 基于精确结构最小化的迭代剪枝
来源:https://huggingface.co/papers/2606.14346
在你的代理中获取此论文:
hf papers read 2606\.14346
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.14346,以便从此页面链接。
引用该论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.14346,以便从此页面链接。
引用该论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.14346,以便从此页面链接。
包含该论文的收藏集 0
没有收藏集包含此论文
将这篇论文添加到收藏集 (https://huggingface.co/new-collection),即可从此页面链接。
相似文章
基于归因引导和覆盖最大化的结构化MoE压缩剪枝
提出了一种针对MoE模型的结构化剪枝框架,通过基于归因的近似方法最大化通道分数覆盖,在结合4比特量化时实现50%或25%的剪枝,并在Qwen3-30B-A3B上将内存占用降低5.27倍。
用于大语言模型压缩的联合结构化剪枝与混合精度量化
一种新颖的端到端大语言模型压缩框架,联合优化结构化剪枝与混合精度量化,在超低位宽精度下,相比于现有最先进方法实现了显著的困惑度降低和加速效果。
SHAPE: 面向稀疏混合专家大语言模型的联盟感知专家剪枝
SHAPE提出了一种面向稀疏MoE大语言模型的联盟感知专家剪枝框架,该框架利用路由轨迹上的Shapley式归因来识别关键专家,在20-40%剪枝率下实现了有竞争力的准确率,并降低了GPU内存占用。
SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏
本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。
基于半监督伪标签的标签高效数据集剪枝
SemiPrune 是一种标签高效的数据集剪枝框架,它利用半监督学习从少量标注子集中生成伪标签,使得现有的监督剪枝方法能够处理未标注数据。在领域特定、图像损坏和长尾数据集上,它达到了最先进的性能。