llm-compression

#llm-compression

用于大语言模型压缩的联合结构化剪枝与混合精度量化

arXiv cs.AI ↗ · 4天前缓存

一种新颖的端到端大语言模型压缩框架，联合优化结构化剪枝与混合精度量化，在超低位宽精度下，相比于现有最先进方法实现了显著的困惑度降低和加速效果。

0 人收藏 0 人点赞

#llm-compression

arXiv cs.CL ↗ · 5天前缓存

介绍SigmaScale，一种为基于SVD的LLM压缩学习辅助缩放矩阵的方法，在Llama 3.1 8B和Qwen3-8B基准测试上展现出具有竞争力的性能。

0 人收藏 0 人点赞

#llm-compression

Reddit r/LocalLLaMA ↗ · 2026-06-04

一位社区研究员分享了为Qwen3.6-27B定制的量化方案，通过将高异常值子层保留为BF16格式，生成体积更小的30GB Q8 GGUF模型，在KLD和top-p指标上优于Unsloth的33GB Q8_K_XL变体。

0 人收藏 0 人点赞

#llm-compression

arXiv cs.LG ↗ · 2026-06-04 缓存

来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架，能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比，该框架在七项推理任务中可实现最高 1.4 倍的推理加速，或最高 6% 的精度提升。

0 人收藏 0 人点赞

#llm-compression

arXiv cs.LG ↗ · 2026-05-12 缓存

本研究揭示了一个“智能剪枝悖论”：诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度，但在边缘设备上部署的大语言模型中显著放大了偏见。

0 人收藏 0 人点赞

#llm-compression

Hugging Face Models Trending ↗ · 2026-04-28 缓存

腾讯 AngelSlim 团队发布了 Hy-MT1.5-1.8B-1.25bit，这是一款高度压缩的 1.25 位机器翻译模型，支持 33 种语言，体积仅 440MB，可在设备端运行。该模型采用 Sherry 量化算法，实现了世界一流的翻译质量，可与体积大得多的模型相媲美。

1 人收藏 1 人点赞