标签
经过剪枝和量化的 MiniMax-M3 版本(MiniMax-M3-Medium-JANG_2L),针对使用 vMLX 在 128GB Mac 上运行进行了优化,采用 32% 专家剪枝和 JANG_2L 混合精度量化,使其占用空间约 105 GB。
本文证明,余弦相似度作为评估大语言模型中层重要性的指标效果不佳,并提出使用层移除后实际准确率下降作为更稳健的度量标准。
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。