low-bit

标签

Cards List
#low-bit

Qift: 移位友好的无零点W2训练后量化,用于旋转W2A4/KV4大语言模型推理

arXiv cs.LG · 2天前 缓存

本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。

0 人收藏 0 人点赞
#low-bit

BitsMoE: 基于谱能引导的MoE大语言模型高效量化比特分配

arXiv cs.LG · 3天前 缓存

BitsMoE提出了一种基于谱能引导的比特分配框架,用于量化混合专家大语言模型,在超低位宽量化下实现了显著的精度提升和加速。

0 人收藏 0 人点赞
#low-bit

Tail-Aware HiFloat4: 面向Wan2.2的W4A4训练后量化

arXiv cs.AI · 2026-05-27 缓存

本文介绍了Tail-Aware HiFloat4,这是一种针对Wan2.2文本到视频扩散模型的W4A4训练后量化方法,该方法采用激活尾感知百分位校准来缓解异常值的影响,同时保持HiFloat4算术运算不变。

0 人收藏 0 人点赞
#low-bit

Quant.npu:通过全静态量化实现端侧大语言模型的高效移动NPU推理

arXiv cs.LG · 2026-05-21 缓存

Quant.npu 提出了一种面向移动 NPU 的全静态量化框架,利用可学习参数和旋转矩阵,无需运行时重新计算即可实现高效的低比特大语言模型推理,延迟最高降低 15.1%。

0 人收藏 0 人点赞
#low-bit

测量开放大语言模型中的最大激活值

arXiv cs.CL · 2026-05-18 缓存

本文测量了来自8个开放LLM家族的27个检查点的最大激活幅度,发现不同家族、架构和训练阶段之间存在显著差异,这对低位量化和部署具有影响。

0 人收藏 0 人点赞
#low-bit

@antirez:上传新的 2-bit HF imatrix GGUF:名称相同但内容不同,已修复共享专家的 down layer(原存在…

X AI KOLs Following · 2026-05-11

修复 imatrix 计算 bug 后,已将修正后的 2-bit GGUF 模型文件上传至 Hugging Face,从而提升了 logits 召回率并降低了误差。

0 人收藏 0 人点赞
#low-bit

Ternary Bonsai:1.58 比特下的顶级智能

Hacker News Top · 2026-04-18

一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈