标签
介绍了QAM-W,一种针对LLM权重的联合二维码本量化方法,采用哈达玛旋转和激活感知缩放,在每权重5–6比特下实现接近BF16的困惑度,并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。