hadamard-rotation

标签

Cards List
#hadamard-rotation

Qift: 移位友好的无零点W2训练后量化,用于旋转W2A4/KV4大语言模型推理

arXiv cs.LG · 2天前 缓存

本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。

0 人收藏 0 人点赞
#hadamard-rotation

KVarN:方差归一化的KV缓存量化减轻推理任务中的错误累积

Hugging Face Daily Papers · 3天前 缓存

KVarN是一个免校准的KV缓存量化器,它使用哈达玛旋转和双缩放方差归一化来减少大型语言模型自回归解码过程中的错误累积,在推理基准上实现了最先进的2位精度。

0 人收藏 0 人点赞
#hadamard-rotation

QAM-W:基于哈达玛旋转和激活感知缩放的LLM权重联合二维码本量化

arXiv cs.LG · 2026-05-27 缓存

介绍了QAM-W,一种针对LLM权重的联合二维码本量化方法,采用哈达玛旋转和激活感知缩放,在每权重5–6比特下实现接近BF16的困惑度,并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈