标签
OpenBMB 发布了 BitCPM4-CANN,这是一套原生训练的三元量化1.58位LLM集合(参数规模0.5B到8B),通过CANN针对昇腾NPU进行了优化,推理时内存减少6倍,训练开销极低。
本文介绍了Tequila,这是一种针对大语言模型的无陷阱量化方法,通过将陷入死区的权重重新利用为动态偏置,提高了三元量化的准确性和推理速度。