low-bit

#low-bit

基于局部分布还原的高精度低位KV缓存量化

arXiv cs.LG ↗ · 5天前缓存

本文发现低位KV缓存量化会因logits的结构化局部误排名而降低大语言模型精度，提出DGAP方法，通过恢复Top-K候选的局部分布，在Llama-3.1-8B模型上将RULER准确率从47.8%恢复至83.2%，且仅增加极小的开销。

0 人收藏 0 人点赞

#low-bit

我在8GB显存下在Terminal-Bench 2.0上运行了Ternary-Bonsai-27B（2-bit）和Bonsai-27B（1-bit）

Reddit r/LocalLLaMA ↗ · 5天前

一位用户在Terminal-Bench 2.0上测试了27B参数Bonsai模型的量化1-bit和2-bit版本，在8GB显存内获得了结果。

0 人收藏 0 人点赞

#low-bit

饱和使量化误差可加：一种带证书的覆盖模型

arXiv cs.LG ↗ · 2026-07-15 缓存

本文分析了混合精度神经网络中量化损失的结构，表明饱和使每层损失可加，并提出了一种覆盖模型，该模型用少量参数预测配置损失，在大规模模型上得到验证。

0 人收藏 0 人点赞

#low-bit

BitNet 文本嵌入

arXiv cs.CL ↗ · 2026-06-25 缓存

本文介绍了 BitEmbed，一个用于基于 LLM 的文本嵌入的极低位宽框架，它将预训练的 LLM 骨干转换为具有三值权重和量化激活的 BitNet 风格编码器。该框架在显著降低编码和存储成本的同时，实现了与全精度模型相当的性能。

0 人收藏 0 人点赞

#low-bit

LC-QAT：基于线性约束向量量化的数据高效2比特LLM量化感知训练

arXiv cs.CL ↗ · 2026-06-10 缓存

提出LC-QAT，一种用于大语言模型的2比特仅权重量化感知训练框架，通过学习仿射映射实现端到端训练，仅使用0.1%–10%的训练数据即达到最优结果。

0 人收藏 0 人点赞

#low-bit

Qift: 移位友好的无零点W2训练后量化，用于旋转W2A4/KV4大语言模型推理

arXiv cs.LG ↗ · 2026-06-03 缓存

本文介绍了Qift，一种固定的无零点两位权重量化层级集，专为Hadamard旋转的大语言模型设计，通过利用旋转权重的近零中心高斯类分布，实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示，相比于标准W2量化，困惑度持续提升。

0 人收藏 0 人点赞

#low-bit

BitsMoE: 基于谱能引导的MoE大语言模型高效量化比特分配

arXiv cs.LG ↗ · 2026-06-02 缓存

BitsMoE提出了一种基于谱能引导的比特分配框架，用于量化混合专家大语言模型，在超低位宽量化下实现了显著的精度提升和加速。

0 人收藏 0 人点赞

#low-bit

Tail-Aware HiFloat4: 面向Wan2.2的W4A4训练后量化

arXiv cs.AI ↗ · 2026-05-27 缓存

本文介绍了Tail-Aware HiFloat4，这是一种针对Wan2.2文本到视频扩散模型的W4A4训练后量化方法，该方法采用激活尾感知百分位校准来缓解异常值的影响，同时保持HiFloat4算术运算不变。

0 人收藏 0 人点赞

#low-bit

Quant.npu：通过全静态量化实现端侧大语言模型的高效移动NPU推理

arXiv cs.LG ↗ · 2026-05-21 缓存

Quant.npu 提出了一种面向移动 NPU 的全静态量化框架，利用可学习参数和旋转矩阵，无需运行时重新计算即可实现高效的低比特大语言模型推理，延迟最高降低 15.1%。

0 人收藏 0 人点赞

#low-bit

测量开放大语言模型中的最大激活值

arXiv cs.CL ↗ · 2026-05-18 缓存

本文测量了来自8个开放LLM家族的27个检查点的最大激活幅度，发现不同家族、架构和训练阶段之间存在显著差异，这对低位量化和部署具有影响。

0 人收藏 0 人点赞

#low-bit

@antirez：上传新的 2-bit HF imatrix GGUF：名称相同但内容不同，已修复共享专家的 down layer（原存在…

X AI KOLs Following ↗ · 2026-05-11

修复 imatrix 计算 bug 后，已将修正后的 2-bit GGUF 模型文件上传至 Hugging Face，从而提升了 logits 召回率并降低了误差。

0 人收藏 0 人点赞

#low-bit

Ternary Bonsai：1.58 比特下的顶级智能

Hacker News Top ↗ · 2026-04-18

一种使用三值权重（-1、0、1）的高效 AI 模型架构，仅需 1.58 比特/参数即可实现具有竞争力的性能，可部署在极度受限的设备上。

0 人收藏 0 人点赞

low-bit

提交意见反馈