标签
本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。
BitsMoE提出了一种基于谱能引导的比特分配框架,用于量化混合专家大语言模型,在超低位宽量化下实现了显著的精度提升和加速。
本文介绍了Tail-Aware HiFloat4,这是一种针对Wan2.2文本到视频扩散模型的W4A4训练后量化方法,该方法采用激活尾感知百分位校准来缓解异常值的影响,同时保持HiFloat4算术运算不变。
Quant.npu 提出了一种面向移动 NPU 的全静态量化框架,利用可学习参数和旋转矩阵,无需运行时重新计算即可实现高效的低比特大语言模型推理,延迟最高降低 15.1%。
本文测量了来自8个开放LLM家族的27个检查点的最大激活幅度,发现不同家族、架构和训练阶段之间存在显著差异,这对低位量化和部署具有影响。
修复 imatrix 计算 bug 后,已将修正后的 2-bit GGUF 模型文件上传至 Hugging Face,从而提升了 logits 召回率并降低了误差。
一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。