标签
NanoQuant是一种灵活的二进制量化方法,可将稠密Transformer压缩至每个权重低于1比特。本仓库提供了一个PyTorch实现,仍在开发中,能够量化Qwen3-0.6B和Qwen3-4B等模型。