vector-quantization

#vector-quantization

LC-QAT：基于线性约束向量量化的数据高效2比特LLM量化感知训练

arXiv cs.CL ↗ · 2026-06-10 缓存

提出LC-QAT，一种用于大语言模型的2比特仅权重量化感知训练框架，通过学习仿射映射实现端到端训练，仅使用0.1%–10%的训练数据即达到最优结果。

0 人收藏 0 人点赞

#vector-quantization

arXiv cs.CL ↗ · 2026-06-10 缓存

UniSVQ提出了一种统一的2位量化框架，通过将码字参数化为整数格点的仿射变换，桥接了标量量化与向量量化，在标量方法中达到了最先进水平，并与向量方法性能相当且具有更高的吞吐量。

0 人收藏 0 人点赞

#vector-quantization

arXiv cs.LG ↗ · 2026-06-04 缓存

# LiftQuant 引入"先提升后投影"机制，实现大语言模型的连续（非整数）位宽量化，精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU，性能超越当前最先进的 2 位模型。

0 人收藏 0 人点赞

#vector-quantization

arXiv cs.LG ↗ · 2026-06-02 缓存

本文介绍了内积感知量化方法，这些方法能够保留与未见向量的内积，开发了具有可证明保证的快速自适应算法，相较于先前的ASQ方法实现了2-10倍的加速。

0 人收藏 0 人点赞

#vector-quantization

Reddit r/LocalLLaMA ↗ · 2026-05-26 缓存

Shard是一个即插即用的HuggingFace缓存，通过使用PCA加int4量化处理K（键），以及Hadamard旋转加向量量化处理V（值），为Llama-3.1-8B实现了10倍的KV缓存压缩，且在基准测试中无精度损失。

0 人收藏 0 人点赞

#vector-quantization

arXiv cs.AI ↗ · 2026-05-08 缓存

本文介绍了 SDFlow，这是一种用于时间序列生成的相似性驱动流匹配框架，旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解，SDFlow 实现了最先进的性能并显著提升了推理速度。

0 人收藏 0 人点赞

#vector-quantization

Papers with Code Trending ↗ · 2025-02-08 缓存

IndexTTS 是一个增强型文本转语音系统，结合了 XTTS 和 Tortoise 模型，采用混合字符-拼音建模和优化的向量量化，在自然度、发音可控性和推理速度上优于现有的开源 TTS 系统。

0 人收藏 0 人点赞