weight-compression

标签

Cards List
#weight-compression

Qift: 移位友好的无零点W2训练后量化,用于旋转W2A4/KV4大语言模型推理

arXiv cs.LG · 2天前 缓存

本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈