8-16张MI50上Minimax M3模型，峰值吞吐量19 tps

Reddit r/LocalLLaMA 2026/06/21 11:19 新闻

mi50 minimax-m3 throughput benchmark deployment

摘要

报告在8-16张MI50 GPU上运行的Minimax M3模型达到每秒19个token的峰值吞吐量。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果，实现了 52.8 tokens/s TG 和 1569 tokens/s PP，无量化或 MTP，证明了在 2018 年硬件上用于代理任务的可行性。

X AI KOLs Following

Minimax-M3 被演示在 4 块 RTX Pro 6000 GPU 上运行，具备 800k 上下文，在 4 路并发下达到 70-120 tok/s 推理速度和 2000 tok/s 预填充速度，使用 376GB VRAM 和 mxfp4 格式。

Reddit r/LocalLLaMA

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

X AI KOLs Following

Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s，用户计划进一步测试整体吞吐。

X AI KOLs Timeline

Unsloth Qwen3.6 27B Q6_K 在 RTX 5090 上通过 MTP 达到每秒超过 100 个令牌，相比没有 MTP 时的 45-50 令牌/秒显著提升。