model-compression

#model-compression

黑盒大型语言模型的知识蒸馏

Hacker News Top ↗ · 1小时前缓存

提出了一种名为 Proxy-KD 的新方法，通过代理模型从黑盒大型语言模型（如 GPT-4）中蒸馏知识到较小的模型，超越了传统的黑盒和白盒知识蒸馏技术。

0 人收藏 0 人点赞

#model-compression

clark-labs/clark-air-sana-1.6b-1.58bit · Hugging Face

Reddit r/LocalLLaMA ↗ · 19小时前缓存

Clark Labs 发布了 Clark Air Sana 1.6B，这是 Sana 1.6B 文本到图像转换器的三值量化版本，体积比 FP16 小 8.6 倍，同时保持接近 FP16 的质量，从而实现高效部署。

0 人收藏 0 人点赞

#model-compression

我们构建了一个Qwen3.5 0.8B的校准感知Q4_K_M量化版，与纯llama.cpp Q4_K_M相比，恢复了96.5%的BF16性能差距（SpectralQuant）

Reddit r/LocalLLaMA ↗ · 昨天

Qwen3.5 0.8B使用SpectralQuant的校准感知Q4_K_M量化版，与标准llama.cpp Q4_K_M量化版相比，恢复了96.5%的BF16性能差距。

0 人收藏 0 人点赞

#model-compression

压缩递归推理模型用于边缘设备时，什么得以保留？

arXiv cs.LG ↗ · 2天前缓存

对压缩递归推理模型用于边缘硬件进行系统研究发现，激进量化会破坏全局推理，同时保留局部预测。该论文引入每通道校准的INT4以恢复推理能力，并提供了适配8 MB SoC和4 MB MCU目标的部署方案。

0 人收藏 0 人点赞

#model-compression

面向工业物联网设备端大语言模型推理的级联多粒度剪枝

arXiv cs.CL ↗ · 2天前缓存

本文提出了一种级联多粒度剪枝框架，用于在工业物联网边缘设备上部署大语言模型，在MHA+GELU架构上实现了高达13.8倍的压缩，且精度损失极小，同时揭示了GQA+SwiGLU设计上的性能崩溃。

0 人收藏 0 人点赞

#model-compression

CAT-Q: 用于LLM的高效且准确的三值量化

arXiv cs.CL ↗ · 2天前缓存

CAT-Q 提出了一种面向LLM的训练后三值量化方法，该方法使用可学习调制和软化三值化技术，仅需512个校准样本即可实现优于BitNet 1.58-bit的性能，并可扩展到235B参数规模。

0 人收藏 0 人点赞

#model-compression

为什么AutoRound被严重忽视？

Reddit r/LocalLLaMA ↗ · 2026-06-21

一位用户质疑为什么AutoRound——这款在低位宽下精度保留出色且能直接导出GGUF的量化工具，尽管在复杂模型（如Qwen3.6 27B）上表现优于标准AWQ和RTN，却仍然被忽视。

0 人收藏 0 人点赞

#model-compression

基于归因引导和覆盖最大化的结构化MoE压缩剪枝

arXiv cs.LG ↗ · 2026-06-18 缓存

提出了一种针对MoE模型的结构化剪枝框架，通过基于归因的近似方法最大化通道分数覆盖，在结合4比特量化时实现50%或25%的剪枝，并在Qwen3-30B-A3B上将内存占用降低5.27倍。

0 人收藏 0 人点赞

#model-compression

MODE: 面向MoE多模态大语言模型的模态分解专家级混合精度量化框架

arXiv cs.LG ↗ · 2026-06-17 缓存

本文介绍MODE，一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架，通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差，在激进量化下实现极小的性能损失。

0 人收藏 0 人点赞

#model-compression

Simplex约束的稀疏Bagging：从均匀先验到稀疏后验的集成学习转变

arXiv cs.AI ↗ · 2026-06-15 缓存

介绍Simplex约束的稀疏Bagging (SCSB)，一种训练后框架，利用袋外样本在概率单纯形上优化估计器权重，实现高达96%的集成压缩并改进校准。

0 人收藏 0 人点赞

#model-compression

小型LLM：剪枝与从头训练

arXiv cs.LG ↗ · 2026-06-15 缓存

本文实证比较了剪枝与从头训练小型语言模型的差异，发现在有限token预算下剪枝具有明显优势，但随着训练规模扩大，优势逐渐减小，尤其是在粗粒度剪枝情况下。

0 人收藏 0 人点赞

#model-compression

@Ex0byt: 开放前沿智能，尽在掌握——MiniMax-M3 PRISM Dynamic-Quant 配方已就绪！428B参数压缩…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

MiniMax-M3 PRISM Dynamic-Quant 配方通过逐张量敏感性排序，将428B参数模型从约450GB压缩至119GB，并计划进一步剪枝至60-80GB，以便本地部署。

0 人收藏 0 人点赞

#model-compression

缩减穿戴设备上脑电图分析深度学习模型的复杂度

arXiv cs.AI ↗ · 2026-06-12 缓存

本文研究了通过应用参数量化和电极缩减技术来降低深度神经网络在穿戴设备上进行脑电图（EEG）分析时的计算复杂度，并以癫痫发作检测为例，展示了在精度损失极小的情况下显著降低复杂度的效果。

0 人收藏 0 人点赞

#model-compression

Squeeze-Release: 迭代剪枝与精确结构最小化

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

本文介绍了Squeeze-Release，一种实现精确结构最小化的迭代剪枝方法。

0 人收藏 0 人点赞

#model-compression

我是否应该提交并发表这些结果？[R]

Reddit r/MachineLearning ↗ · 2026-06-10

一位研究者描述构建了一个具有27万个参数的深度学习模型，用于从拓扑指数预测熔点，达到了R² 0.6399，并询问是否应该发表这些结果。

0 人收藏 0 人点赞

#model-compression

Sigma-Branch: 面向动态推理的分层单路径网络重构，减少活跃参数

arXiv cs.LG ↗ · 2026-06-10 缓存

Sigma-Branch 将预训练的稠密网络重构成一个层次化二叉树结构，包含共享主干、路由器和专用叶子节点。在 CIFAR-100、ImageNet-1K 和 ModelNet40 上，每次推理的活跃参数减少 58-60%，同时精度下降不超过基线精确率的 1.72 个百分点。

0 人收藏 0 人点赞

#model-compression

SHAPE: 面向稀疏混合专家大语言模型的联盟感知专家剪枝

arXiv cs.LG ↗ · 2026-06-10 缓存

SHAPE提出了一种面向稀疏MoE大语言模型的联盟感知专家剪枝框架，该框架利用路由轨迹上的Shapley式归因来识别关键专家，在20-40%剪枝率下实现了有竞争力的准确率，并降低了GPU内存占用。

0 人收藏 0 人点赞

#model-compression

基于多臂赌博机的深度神经网络结构化神经元剪枝

arXiv cs.LG ↗ · 2026-06-09 缓存

本文提出了一种新颖的基于多臂赌博机算法的深度神经网络结构化神经元剪枝框架，并在多种任务上验证了其有效性。

0 人收藏 0 人点赞

#model-compression

@_philschmid: 更多 Gemma 4！新的 QAT Gemma 4 检查点，性能相似，内存使用减少约 4 倍！它附带了一种新的移动…

X AI KOLs Following ↗ · 2026-06-08 缓存

新的 QAT Gemma 4 检查点提供相似的性能，内存使用减少约 4 倍，通过一种新的移动端量化格式，使 Gemma 4 E2B 的内存占用仅需 1GB。

0 人收藏 0 人点赞

#model-compression

SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

arXiv cs.CL ↗ · 2026-06-08 缓存

介绍SigmaScale，一种为基于SVD的LLM压缩学习辅助缩放矩阵的方法，在Llama 3.1 8B和Qwen3-8B基准测试上展现出具有竞争力的性能。

0 人收藏 0 人点赞

model-compression

提交意见反馈