@0xSero: Minimax-M3 在 4 块 RTX Pro 6000 上运行 - 800k 上下文 - 4 路并发 (250k) - 70-120 tok/s - 2000 tok/s 预填充无缓存…

X AI KOLs Following 2026/06/14 22:46 模型

摘要

Minimax-M3 被演示在 4 块 RTX Pro 6000 GPU 上运行，具备 800k 上下文，在 4 路并发下达到 70-120 tok/s 推理速度和 2000 tok/s 预填充速度，使用 376GB VRAM 和 mxfp4 格式。

Minimax-M3 在 4 块 RTX Pro 6000 上运行 - 800k 上下文 - 4 路并发 (250k) - 70-120 tok/s - 2000 tok/s 预填充 (无缓存) - 376GB VRAM - mxfp4 它正在改善我某个视频中的音频，实际上在研究解决方案方面做得不错。好模型 https://t.co/7QcuzrDnEK

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:00

Minimax-M3 运行在 4 块 RTX Pro 6000 上

800k 上下文
250k 下 4 倍并发
70-120 tok/s
无缓存预填充 2000 tok/s
376GB 显存
mxfp4

它正在改善我其中一个视频的音频，在研究解决方案方面做得不错。

好模型 https://t.co/7QcuzrDnEK

相似文章

RTX 5080 16GB：Qwen3.6 35B MoE 在 128k 上下文下的表现——56 tok/s，以及 MTP 为何无济于事

Reddit r/LocalLLaMA

Qwen3.6 35B MoE 在 RTX 5080 16GB 上的详细基准测试表明，MTP（多令牌预测）由于显存限制，在 128k 上下文中无法提升推理速度；最佳配置为不带 MTP 的 Q4_K_XL，在 128k 上下文下生成速度约 56 tok/s。

@0xSero：GLM-5.1-478B-NVFP4 跑在：4×RTX Pro 6000、SGLang，最大 37 万 token（1.75× 满上下文），p10 27.7 | p90 45…

X AI KOLs Timeline

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

8-16张MI50上Minimax M3模型，峰值吞吐量19 tps

Reddit r/LocalLLaMA

报告在8-16张MI50 GPU上运行的Minimax M3模型达到每秒19个token的峰值吞吐量。

@TeksEdge: 随着MiniMax M3开源发布，以下是关于量化版本和模型大小的预期，包括所需VRAM：MiniMax M3 (428…

X AI KOLs Following

MiniMax M3是一款428B参数的MoE模型，活跃参数约23B，现已开源。它支持超长上下文（最高达1M）并提升了效率，提供了多种量化尺寸以及本地部署所需的VRAM要求。

@stevibe：MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：…