@stevibe:MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:…
摘要
MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:4×RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms;4×RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms;1×RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms;DGX
查看缓存全文
缓存时间: 未知
MiniMax M2.7 有 230B 参数,真的能在家里跑起来吗?
我在 4 套不同设备上测试了 Unsloth 的 UD-IQ3_XXS(80 GB):
- 4× RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms
- 4× RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms
- 1× RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms
- DGX
相似文章
@TeksEdge: 随着MiniMax M3开源发布,以下是关于量化版本和模型大小的预期,包括所需VRAM:MiniMax M3 (428…
MiniMax M3是一款428B参数的MoE模型,活跃参数约23B,现已开源。它支持超长上下文(最高达1M)并提升了效率,提供了多种量化尺寸以及本地部署所需的VRAM要求。
MiniMax2.7 @47tg 1200pp
MiniMax2.7模型发布,拥有47万亿参数和1200页上下文长度。
@no_stp_on_snek: MiniMax-M3 的 Config-I 量化版本已发布在 MLX 上。2-bit 专家、4-bit 注意力、8-bit 边界与嵌入、f16 路由器。约…
发布了 MiniMax-M3 的 Config-I 量化版本,在 MLX 上使用 2-bit 专家和 4-bit 注意力,将 427B MoE 模型从 869GB 减少到约 167GB,但该量化版本未经测试且需要为 mlx_lm 打补丁。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。
JANGQ-AI/MiniMax-M2.7-JANGTQ_K : MiniMax M2.7 的混合位量化版本 - 磁盘占用 74 GB
发布了 MiniMax M2.7 模型的混合位量化版本,优化至 74 GB,以便在 Apple Silicon 设备上高效进行本地推理。