mi50

#mi50

8-16张MI50上Minimax M3模型，峰值吞吐量19 tps

Reddit r/LocalLLaMA ↗ · 4天前

报告在8-16张MI50 GPU上运行的Minimax M3模型达到每秒19个token的峰值吞吐量。

0 人收藏 0 人点赞

#mi50

Reddit r/LocalLLaMA ↗ · 2026-05-13

在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果，实现了 52.8 tokens/s TG 和 1569 tokens/s PP，无量化或 MTP，证明了在 2018 年硬件上用于代理任务的可行性。

0 人收藏 0 人点赞