标签
发布了 MiniMax-M3 的 Config-I 量化版本,在 MLX 上使用 2-bit 专家和 4-bit 注意力,将 427B MoE 模型从 869GB 减少到约 167GB,但该量化版本未经测试且需要为 mlx_lm 打补丁。