标签
报告在8-16张MI50 GPU上运行的Minimax M3模型达到每秒19个token的峰值吞吐量。
在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。