StepFun 3.7 Flash - M5 Max 上的速度基准测试

Reddit r/LocalLLaMA 2026/05/29 04:04 模型

stepfun-3.7-flash llama-cpp benchmark inference-speed m5-max apple-silicon

摘要

StepFun 3.7 Flash 模型在 M5 Max 上通过 llama.cpp 运行的基准测试结果，展示了不同上下文长度下的提示处理和令牌生成速度。

刚用当天发布的 llama.cpp 分支跑了一个基准测试。M5 Max：128 GB - Q4_K_S / 内存峰值约 120+ GB，导致操作有些迟钝，但切换回后仍然可用。短上下文（<16k）感觉很快，响应非常迅速。32k-64k 的速度也不错，可用。 |PP|TG|B|N_KV|T_PP s|S_PP t/s|T_TG s|S_TG t/s|T s|S t/s| |:-|:-|:-|:-|:-|:-|:-|:-|:-|:-| |0|128|1|128|0.000|nan|2.038|62.80|2.038|62.80| |2048|128|1|2176|1.938|1056.65|2.115|60.52|4.053|536.88| |8192|128|1|8320|9.153|895.01|2.233|57.32|11.386|730.71| |16384|128|1|16512|22.428|730.52|2.475|51.71|24.903|663.05| |32768|128|1|32896|64.539|507.73|2.818|45.43|67.356|488.39| |65536|128|1|65664|178.227|367.71|3.774|33.92|182.001|360.79| 现在看 Pelican bench——很好用的基准，但手有点长，哈哈 https://preview.redd.it/322rt8n4304h1.png?width=780&format=png&auto=webp&s=e34efc12f6d96a22d27038a642c3c198b7b292e2

查看原文

StepFun 3.7 Flash - M5 Max 上的速度基准测试

相似文章

StepFun 3.7 Flash

StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%

Stepfun 3.7 Flash 表现非常出色

@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级高达400 tokens/秒

@NielsRogge: StepFun 的令人印象深刻的发布，请访问 https://paperswithcode.co/paper/83892 探索

提交意见反馈