low-bit-quantization

#low-bit-quantization

InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization

arXiv cs.LG ↗ · 2026-05-27 Cached

InfoQuant introduces a train-free method, Peak Suppression Orthogonal Transformation (PSOT), to reshape activation distributions for low-bit LLM quantization, preserving 97% floating-point accuracy under W4A4KV4 and outperforming prior PTQ methods.

0 favorites 0 likes

#low-bit-quantization

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

Hugging Face Daily Papers ↗ · 2026-05-18 Cached

OSCAR is an offline spectral covariance-aware rotation method for 2-bit KV cache quantization that aligns quantization with attention covariance structures, achieving high accuracy and efficiency for long-context LLM serving.

0 favorites 0 likes

low-bit-quantization

InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

Submit Feedback