StepFun 3.7 Flash - M5 Max 上的速度基准测试

Reddit r/LocalLLaMA 模型

摘要

StepFun 3.7 Flash 模型在 M5 Max 上通过 llama.cpp 运行的基准测试结果,展示了不同上下文长度下的提示处理和令牌生成速度。

刚用当天发布的 llama.cpp 分支跑了一个基准测试。M5 Max:128 GB - Q4_K_S / 内存峰值约 120+ GB,导致操作有些迟钝,但切换回后仍然可用。短上下文(<16k)感觉很快,响应非常迅速。32k-64k 的速度也不错,可用。 |PP|TG|B|N_KV|T_PP s|S_PP t/s|T_TG s|S_TG t/s|T s|S t/s| |:-|:-|:-|:-|:-|:-|:-|:-|:-|:-| |0|128|1|128|0.000|nan|2.038|62.80|2.038|62.80| |2048|128|1|2176|1.938|1056.65|2.115|60.52|4.053|536.88| |8192|128|1|8320|9.153|895.01|2.233|57.32|11.386|730.71| |16384|128|1|16512|22.428|730.52|2.475|51.71|24.903|663.05| |32768|128|1|32896|64.539|507.73|2.818|45.43|67.356|488.39| |65536|128|1|65664|178.227|367.71|3.774|33.92|182.001|360.79| 现在看 Pelican bench——很好用的基准,但手有点长,哈哈 https://preview.redd.it/322rt8n4304h1.png?width=780&format=png&auto=webp&s=e34efc12f6d96a22d27038a642c3c198b7b292e2
查看原文

相似文章

StepFun 3.7 Flash

Reddit r/LocalLLaMA

StepFun 发布了 Step 3.7 Flash,这是一个高效的多模态模型,针对真实世界的智能体任务进行了优化,具有改进的编码基准(SWE-Bench Pro、Terminal-Bench)并兼容多种智能体框架。

Stepfun 3.7 Flash 表现非常出色

Reddit r/LocalLLaMA

Stepfun 3.7 Flash 是一款紧凑型视觉模型,在美学方面接近 GLM 5.1,在 3D 世界理解方面达到其 80% 的水平,同时仅使用 25% 的参数,因此内存效率极高。