llm-quantization

#llm-quantization

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

arXiv cs.LG ↗ · yesterday Cached

LiftQuant introduces a 'lift-then-project' mechanism enabling continuous (non-integer) bit-width quantization for LLMs, allowing precise fitting to hardware memory budgets. The framework compresses a 70B LLM to 2.4-bit to fit a 24GB GPU, outperforming state-of-the-art 2-bit models.

0 favorites 0 likes

#llm-quantization

QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling

arXiv cs.LG ↗ · 2026-05-27 Cached

Introduces QAM-W, a joint 2D codebook quantization method for LLM weights using Hadamard rotation and activation-aware scaling, achieving near BF16 perplexity at 5–6 bits per weight and matching SmoothQuant W8A8 quality with 32% fewer weight bits.

0 favorites 0 likes

#llm-quantization

Fitting Is Not Enough: Smoothness in Extremely Quantized LLMs

arXiv cs.CL ↗ · 2026-05-12 Cached

This paper investigates smoothness degradation in extremely quantized Large Language Models, arguing that preserving smoothness is crucial for maintaining performance beyond numerical accuracy.

0 favorites 0 likes

#llm-quantization

@rumgewieselt: Now its getting crazy ... 3x 1080 Ti (Pascal, 33GB VRAM) Qwen 3.6 27B MTP with 196K TurboQuant ~28-30 t/s consistently

X AI KOLs Timeline ↗ · 2026-05-08 Cached

A user demonstrates successful local inference of a 27B parameter Qwen model across three GTX 1080 Ti GPUs, achieving approximately 28-30 tokens per second using TurboQuant optimization.

0 favorites 0 likes

#llm-quantization

From Signal Degradation to Computation Collapse: Uncovering the Two Failure Modes of LLM Quantization

arXiv cs.CL ↗ · 2026-04-23 Cached

Researchers identify two distinct failure modes in aggressive LLM quantization—Signal Degradation and Computation Collapse—and show that training-free fixes only remedy the former, indicating structural reconstruction is needed for ultra-low-bit models.

0 favorites 0 likes

llm-quantization

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling

Fitting Is Not Enough: Smoothness in Extremely Quantized LLMs

@rumgewieselt: Now its getting crazy ... 3x 1080 Ti (Pascal, 33GB VRAM) Qwen 3.6 27B MTP with 196K TurboQuant ~28-30 t/s consistently

From Signal Degradation to Computation Collapse: Uncovering the Two Failure Modes of LLM Quantization

Submit Feedback