标签
# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。