binary-quantization

标签

Cards List
#binary-quantization

NanoQuant的一种实现:一种灵活的二进制量化方法

Reddit r/LocalLLaMA · 2026-06-08

NanoQuant是一种灵活的二进制量化方法,可将稠密Transformer压缩至每个权重低于1比特。本仓库提供了一个PyTorch实现,仍在开发中,能够量化Qwen3-0.6B和Qwen3-4B等模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈