标签
提出了一种名为 Proxy-KD 的新方法,通过代理模型从黑盒大型语言模型(如 GPT-4)中蒸馏知识到较小的模型,超越了传统的黑盒和白盒知识蒸馏技术。
Clark Labs 发布了 Clark Air Sana 1.6B,这是 Sana 1.6B 文本到图像转换器的三值量化版本,体积比 FP16 小 8.6 倍,同时保持接近 FP16 的质量,从而实现高效部署。
Qwen3.5 0.8B使用SpectralQuant的校准感知Q4_K_M量化版,与标准llama.cpp Q4_K_M量化版相比,恢复了96.5%的BF16性能差距。
对压缩递归推理模型用于边缘硬件进行系统研究发现,激进量化会破坏全局推理,同时保留局部预测。该论文引入每通道校准的INT4以恢复推理能力,并提供了适配8 MB SoC和4 MB MCU目标的部署方案。
本文提出了一种级联多粒度剪枝框架,用于在工业物联网边缘设备上部署大语言模型,在MHA+GELU架构上实现了高达13.8倍的压缩,且精度损失极小,同时揭示了GQA+SwiGLU设计上的性能崩溃。
CAT-Q 提出了一种面向LLM的训练后三值量化方法,该方法使用可学习调制和软化三值化技术,仅需512个校准样本即可实现优于BitNet 1.58-bit的性能,并可扩展到235B参数规模。
一位用户质疑为什么AutoRound——这款在低位宽下精度保留出色且能直接导出GGUF的量化工具,尽管在复杂模型(如Qwen3.6 27B)上表现优于标准AWQ和RTN,却仍然被忽视。
提出了一种针对MoE模型的结构化剪枝框架,通过基于归因的近似方法最大化通道分数覆盖,在结合4比特量化时实现50%或25%的剪枝,并在Qwen3-30B-A3B上将内存占用降低5.27倍。
本文介绍MODE,一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架,通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差,在激进量化下实现极小的性能损失。
介绍Simplex约束的稀疏Bagging (SCSB),一种训练后框架,利用袋外样本在概率单纯形上优化估计器权重,实现高达96%的集成压缩并改进校准。
本文实证比较了剪枝与从头训练小型语言模型的差异,发现在有限token预算下剪枝具有明显优势,但随着训练规模扩大,优势逐渐减小,尤其是在粗粒度剪枝情况下。
MiniMax-M3 PRISM Dynamic-Quant 配方通过逐张量敏感性排序,将428B参数模型从约450GB压缩至119GB,并计划进一步剪枝至60-80GB,以便本地部署。
本文研究了通过应用参数量化和电极缩减技术来降低深度神经网络在穿戴设备上进行脑电图(EEG)分析时的计算复杂度,并以癫痫发作检测为例,展示了在精度损失极小的情况下显著降低复杂度的效果。
本文介绍了Squeeze-Release,一种实现精确结构最小化的迭代剪枝方法。
一位研究者描述构建了一个具有27万个参数的深度学习模型,用于从拓扑指数预测熔点,达到了R² 0.6399,并询问是否应该发表这些结果。
Sigma-Branch 将预训练的稠密网络重构成一个层次化二叉树结构,包含共享主干、路由器和专用叶子节点。在 CIFAR-100、ImageNet-1K 和 ModelNet40 上,每次推理的活跃参数减少 58-60%,同时精度下降不超过基线精确率的 1.72 个百分点。
SHAPE提出了一种面向稀疏MoE大语言模型的联盟感知专家剪枝框架,该框架利用路由轨迹上的Shapley式归因来识别关键专家,在20-40%剪枝率下实现了有竞争力的准确率,并降低了GPU内存占用。
本文提出了一种新颖的基于多臂赌博机算法的深度神经网络结构化神经元剪枝框架,并在多种任务上验证了其有效性。
新的 QAT Gemma 4 检查点提供相似的性能,内存使用减少约 4 倍,通过一种新的移动端量化格式,使 Gemma 4 E2B 的内存占用仅需 1GB。
介绍SigmaScale,一种为基于SVD的LLM压缩学习辅助缩放矩阵的方法,在Llama 3.1 8B和Qwen3-8B基准测试上展现出具有竞争力的性能。