vector-quantization

标签

Cards List
#vector-quantization

LC-QAT:基于线性约束向量量化的数据高效2比特LLM量化感知训练

arXiv cs.CL · 2天前 缓存

提出LC-QAT,一种用于大语言模型的2比特仅权重量化感知训练框架,通过学习仿射映射实现端到端训练,仅使用0.1%–10%的训练数据即达到最优结果。

0 人收藏 0 人点赞
#vector-quantization

UniSVQ: 2-bit统一标量-向量量化

arXiv cs.CL · 2天前 缓存

UniSVQ提出了一种统一的2位量化框架,通过将码字参数化为整数格点的仿射变换,桥接了标量量化与向量量化,在标量方法中达到了最先进水平,并与向量方法性能相当且具有更高的吞吐量。

0 人收藏 0 人点赞
#vector-quantization

# LiftQuant:基于维度提升与投影的连续比特宽度大语言模型量化

arXiv cs.LG · 2026-06-04 缓存

# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。

0 人收藏 0 人点赞
#vector-quantization

内积感知量化:可证明快速、准确且自适应的算法

arXiv cs.LG · 2026-06-02 缓存

本文介绍了内积感知量化方法,这些方法能够保留与未见向量的内积,开发了具有可证明保证的快速自适应算法,相较于先前的ASQ方法实现了2-10倍的加速。

0 人收藏 0 人点赞
#vector-quantization

Shard - 实现10倍KV缓存压缩

Reddit r/LocalLLaMA · 2026-05-26 缓存

Shard是一个即插即用的HuggingFace缓存,通过使用PCA加int4量化处理K(键),以及Hadamard旋转加向量量化处理V(值),为Llama-3.1-8B实现了10倍的KV缓存压缩,且在基准测试中无精度损失。

0 人收藏 0 人点赞
#vector-quantization

SDFlow:用于时间序列生成的相似性驱动流匹配

arXiv cs.AI · 2026-05-08 缓存

本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈