标签
提出LC-QAT,一种用于大语言模型的2比特仅权重量化感知训练框架,通过学习仿射映射实现端到端训练,仅使用0.1%–10%的训练数据即达到最优结果。
UniSVQ提出了一种统一的2位量化框架,通过将码字参数化为整数格点的仿射变换,桥接了标量量化与向量量化,在标量方法中达到了最先进水平,并与向量方法性能相当且具有更高的吞吐量。
# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。
本文介绍了内积感知量化方法,这些方法能够保留与未见向量的内积,开发了具有可证明保证的快速自适应算法,相较于先前的ASQ方法实现了2-10倍的加速。
Shard是一个即插即用的HuggingFace缓存,通过使用PCA加int4量化处理K(键),以及Hadamard旋转加向量量化处理V(值),为Llama-3.1-8B实现了10倍的KV缓存压缩,且在基准测试中无精度损失。
本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。