StepFun 3.7 Flash - M5 Max 上的速度基准测试
摘要
StepFun 3.7 Flash 模型在 M5 Max 上通过 llama.cpp 运行的基准测试结果,展示了不同上下文长度下的提示处理和令牌生成速度。
刚用当天发布的 llama.cpp 分支跑了一个基准测试。M5 Max:128 GB - Q4_K_S / 内存峰值约 120+ GB,导致操作有些迟钝,但切换回后仍然可用。短上下文(<16k)感觉很快,响应非常迅速。32k-64k 的速度也不错,可用。
|PP|TG|B|N_KV|T_PP s|S_PP t/s|T_TG s|S_TG t/s|T s|S t/s|
|:-|:-|:-|:-|:-|:-|:-|:-|:-|:-|
|0|128|1|128|0.000|nan|2.038|62.80|2.038|62.80|
|2048|128|1|2176|1.938|1056.65|2.115|60.52|4.053|536.88|
|8192|128|1|8320|9.153|895.01|2.233|57.32|11.386|730.71|
|16384|128|1|16512|22.428|730.52|2.475|51.71|24.903|663.05|
|32768|128|1|32896|64.539|507.73|2.818|45.43|67.356|488.39|
|65536|128|1|65664|178.227|367.71|3.774|33.92|182.001|360.79|
现在看 Pelican bench——很好用的基准,但手有点长,哈哈 https://preview.redd.it/322rt8n4304h1.png?width=780&format=png&auto=webp&s=e34efc12f6d96a22d27038a642c3c198b7b292e2
相似文章
StepFun 3.7 Flash
StepFun 发布了 Step 3.7 Flash,这是一个高效的多模态模型,针对真实世界的智能体任务进行了优化,具有改进的编码基准(SWE-Bench Pro、Terminal-Bench)并兼容多种智能体框架。
StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%
StepFun的Step 3.7 Flash是一款198B稀疏MoE模型,活跃参数11B,在SWE-Bench Verified上以约九分之一的成本达到Claude Opus 4.6编码性能的97%。该模型采用Advisor Mode策略,将昂贵的前沿模型调用保留给关键决策点。
Stepfun 3.7 Flash 表现非常出色
Stepfun 3.7 Flash 是一款紧凑型视觉模型,在美学方面接近 GLM 5.1,在 3D 世界理解方面达到其 80% 的水平,同时仅使用 25% 的参数,因此内存效率极高。
@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级 高达400 tokens/秒
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。
@NielsRogge: StepFun 的令人印象深刻的发布,请访问 https://paperswithcode.co/paper/83892 探索
StepFun 发布了 Step 3.7 Flash,这是一个开放权重的模型,专为智能体、编程、搜索和多模态任务设计,在多个基准测试中取得了最高分。