标签
一种新颖的端到端大语言模型压缩框架,联合优化结构化剪枝与混合精度量化,在超低位宽精度下,相比于现有最先进方法实现了显著的困惑度降低和加速效果。
介绍SigmaScale,一种为基于SVD的LLM压缩学习辅助缩放矩阵的方法,在Llama 3.1 8B和Qwen3-8B基准测试上展现出具有竞争力的性能。
一位社区研究员分享了为Qwen3.6-27B定制的量化方案,通过将高异常值子层保留为BF16格式,生成体积更小的30GB Q8 GGUF模型,在KLD和top-p指标上优于Unsloth的33GB Q8_K_XL变体。
来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架,能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比,该框架在七项推理任务中可实现最高 1.4 倍的推理加速,或最高 6% 的精度提升。
本研究揭示了一个“智能剪枝悖论”:诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度,但在边缘设备上部署的大语言模型中显著放大了偏见。
腾讯 AngelSlim 团队发布了 Hy-MT1.5-1.8B-1.25bit,这是一款高度压缩的 1.25 位机器翻译模型,支持 33 种语言,体积仅 440MB,可在设备端运行。该模型采用 Sherry 量化算法,实现了世界一流的翻译质量,可与体积大得多的模型相媲美。