@0xSero: Minimax-M3 在 4 块 RTX Pro 6000 上运行 - 800k 上下文 - 4 路并发 (250k) - 70-120 tok/s - 2000 tok/s 预填充无缓存…
摘要
Minimax-M3 被演示在 4 块 RTX Pro 6000 GPU 上运行,具备 800k 上下文,在 4 路并发下达到 70-120 tok/s 推理速度和 2000 tok/s 预填充速度,使用 376GB VRAM 和 mxfp4 格式。
查看缓存全文
缓存时间: 2026/06/15 09:00
Minimax-M3 运行在 4 块 RTX Pro 6000 上
- 800k 上下文
- 250k 下 4 倍并发
- 70-120 tok/s
- 无缓存预填充 2000 tok/s
- 376GB 显存
- mxfp4
它正在改善我其中一个视频的音频,在研究解决方案方面做得不错。
好模型 https://t.co/7QcuzrDnEK
相似文章
RTX 5080 16GB:Qwen3.6 35B MoE 在 128k 上下文下的表现——56 tok/s,以及 MTP 为何无济于事
Qwen3.6 35B MoE 在 RTX 5080 16GB 上的详细基准测试表明,MTP(多令牌预测)由于显存限制,在 128k 上下文中无法提升推理速度;最佳配置为不带 MTP 的 Q4_K_XL,在 128k 上下文下生成速度约 56 tok/s。
@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…
一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。
8-16张MI50上Minimax M3模型,峰值吞吐量19 tps
报告在8-16张MI50 GPU上运行的Minimax M3模型达到每秒19个token的峰值吞吐量。
@TeksEdge: 随着MiniMax M3开源发布,以下是关于量化版本和模型大小的预期,包括所需VRAM:MiniMax M3 (428…
MiniMax M3是一款428B参数的MoE模型,活跃参数约23B,现已开源。它支持超长上下文(最高达1M)并提升了效率,提供了多种量化尺寸以及本地部署所需的VRAM要求。
@stevibe:MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:…
MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:4×RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms;4×RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms;1×RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms;DGX