llm-compression

标签

Cards List
#llm-compression

用于大语言模型压缩的联合结构化剪枝与混合精度量化

arXiv cs.AI · 4天前 缓存

一种新颖的端到端大语言模型压缩框架,联合优化结构化剪枝与混合精度量化,在超低位宽精度下,相比于现有最先进方法实现了显著的困惑度降低和加速效果。

0 人收藏 0 人点赞
#llm-compression

SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

arXiv cs.CL · 5天前 缓存

介绍SigmaScale,一种为基于SVD的LLM压缩学习辅助缩放矩阵的方法,在Llama 3.1 8B和Qwen3-8B基准测试上展现出具有竞争力的性能。

0 人收藏 0 人点赞
#llm-compression

Qwen 3.6 27B 30GB 相同 top p: 98.358 ± 0.033 % vs UD Q8 K XL 33GB 相同 top p: 97.426 ± 0.041 %

Reddit r/LocalLLaMA · 2026-06-04

一位社区研究员分享了为Qwen3.6-27B定制的量化方案,通过将高异常值子层保留为BF16格式,生成体积更小的30GB Q8 GGUF模型,在KLD和top-p指标上优于Unsloth的33GB Q8_K_XL变体。

0 人收藏 0 人点赞
#llm-compression

通过联合优化架构与量化策略实现 LLM 压缩

arXiv cs.LG · 2026-06-04 缓存

来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架,能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比,该框架在七项推理任务中可实现最高 1.4 倍的推理加速,或最高 6% 的精度提升。

0 人收藏 0 人点赞
#llm-compression

权重剪枝放大偏见:压缩大语言模型在边缘人工智能中多方法研究

arXiv cs.LG · 2026-05-12 缓存

本研究揭示了一个“智能剪枝悖论”:诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度,但在边缘设备上部署的大语言模型中显著放大了偏见。

0 人收藏 0 人点赞
#llm-compression

AngelSlim/Hy-MT1.5-1.8B-1.25bit

Hugging Face Models Trending · 2026-04-28 缓存

腾讯 AngelSlim 团队发布了 Hy-MT1.5-1.8B-1.25bit,这是一款高度压缩的 1.25 位机器翻译模型,支持 33 种语言,体积仅 440MB,可在设备端运行。该模型采用 Sherry 量化算法,实现了世界一流的翻译质量,可与体积大得多的模型相媲美。

1 人收藏 1 人点赞
← 返回首页

提交意见反馈