8-16张MI50上Minimax M3模型,峰值吞吐量19 tps
摘要
报告在8-16张MI50 GPU上运行的Minimax M3模型达到每秒19个token的峰值吞吐量。
暂无内容
相似文章
MI50s 上的 Qwen 3.6 27B @52.8 tps TG @1569 tps PP(无 MTP,无量化)
在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。
@0xSero: Minimax-M3 在 4 块 RTX Pro 6000 上运行 - 800k 上下文 - 4 路并发 (250k) - 70-120 tok/s - 2000 tok/s 预填充无缓存…
Minimax-M3 被演示在 4 块 RTX Pro 6000 GPU 上运行,具备 800k 上下文,在 4 路并发下达到 70-120 tok/s 推理速度和 2000 tok/s 预填充速度,使用 376GB VRAM 和 mxfp4 格式。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
@populartourist: Unsloth Qwen3.6 27B Q6_K 在 RTX 5090 上通过 MTP 实现超过 100 令牌/秒。相比没有 MTP 时的 45-50 令牌/秒大幅提升。这真是太…
Unsloth Qwen3.6 27B Q6_K 在 RTX 5090 上通过 MTP 达到每秒超过 100 个令牌,相比没有 MTP 时的 45-50 令牌/秒显著提升。