llm-quantization

标签

Cards List
#llm-quantization

# LiftQuant:基于维度提升与投影的连续比特宽度大语言模型量化

arXiv cs.LG · 昨天 缓存

# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。

0 人收藏 0 人点赞
#llm-quantization

QAM-W:基于哈达玛旋转和激活感知缩放的LLM权重联合二维码本量化

arXiv cs.LG · 2026-05-27 缓存

介绍了QAM-W,一种针对LLM权重的联合二维码本量化方法,采用哈达玛旋转和激活感知缩放,在每权重5–6比特下实现接近BF16的困惑度,并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。

0 人收藏 0 人点赞
#llm-quantization

仅靠拟合是不够的:极低量化大语言模型中的平滑性

arXiv cs.CL · 2026-05-12 缓存

本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。

0 人收藏 0 人点赞
#llm-quantization

@rumgewieselt:现在变得疯狂了……三块 1080 Ti(Pascal架构,33GB VRAM)Qwen 3.6 27B MTP 搭配 196K TurboQuant,持续 ~28-30 t/s

X AI KOLs Timeline · 2026-05-08 缓存

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

0 人收藏 0 人点赞
#llm-quantization

从信号退化到计算崩溃:揭示LLM量化的两种失效模式

arXiv cs.CL · 2026-04-23 缓存

研究者发现激进LLM量化存在两种截然不同的失效模式——信号退化与计算崩溃,并证明无需训练的修复手段仅能缓解前者,表明超低比特模型需进行结构性重建。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈