stepfun-ai/Step-3.7-Flash

Hugging Face Models Trending 2026/05/23 02:13 模型

vision-language moe multimodal sparse-moe step-3.7 huggingface open-source

摘要

Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型，每个token有11B活跃参数，支持256k上下文和三种推理级别，专为高吞吐量的代理工作流设计。

任务：图像-文本到文本标签：transformers, safetensors, step3p7, text-generation, vision-language, multimodal, moe, image-text-to-text, conversational, custom_code, en, license:apache-2.0, eval-results, region:us

查看原文

查看缓存全文

缓存时间: 2026/05/29 14:11

stepfun-ai/Step-3.7-Flash · Hugging Face 来源：https://huggingface.co/stepfun-ai/Step-3.7-Flash [模型页面]: https://static.stepfun.com/blog/step-3.7-flash/ ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#1-introduction1. 简介 Step 3.7 Flash 是一个 198B 参数的稀疏混合专家（MoE）视觉语言模型，它结合了 196B 参数的语言骨干网络和 1.8B 参数的视觉编码器，用于原生图像理解。该模型专为高频生产负载设计，每个 token 激活约 11B 参数，吞吐量可达每秒 400 个 token。Step 3.7 Flash 支持 256k 上下文窗口，并提供三种可选的推理级别（低、中、高），方便开发者在速度、成本和认知深度之间轻松权衡。我们构建 Step 3.7 Flash 是为了满足需要扩展结合感知、搜索和推理的智能体工作流的开发者需求。它旨在处理密集型任务，例如一次性解析大型财务报告、运行多步骤搜索循环并进行跨来源验证，或在高吞吐管线中操作并发编码智能体。 ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#2-capabilities–performance2. 能力与性能 ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#multimodal-perception-and-verification多模态感知与验证该模型提供顶级的视觉智能，在 SimpleVQA (搜索) 上以 79.2 分排名第一，并在 V* (Python) 上达到前沿水平，得分为 95.3。这些指标反映出模型具备强大的视觉基础能力和检索增强推理能力，超越了基本的图像描述。模型能够准确处理密集的视觉界面，如 UI 线框图、应用程序 GUI 和数据图表，并将其映射为结构化代码。当遇到不完整的视觉素材时，它可以自主识别缺失数据并执行查找以验证上下文，然后返回经事实核验的结论。 ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#workflow-integrity-and-tool-orchestration工作流完整性及工具编排执行可靠性对于自主智能体至关重要。Step 3.7 Flash 在 ClawEval-1.1 基准测试中以 67.1 分领先，显著优于得分 59.8 的次优竞争对手。这一表现证明了其在多轮编排过程中对对抗性陷阱的高度抵抗力和对系统策略的严格遵循。在 Toolathlon（49.5 分）和 HLE w. Tool（48.1 分）等评测的支持下，该模型确保了高轨迹完整性。Step 3.7 Flash 能够可靠地与外部 API 交互，并执行长周期工作流，而不会偏离指令或违反系统约束。 ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#code-engineering-and-professional-baselines代码工程与专业基线 Step 3.7 Flash 专为实时代码工程任务构建，在 SWE-Bench PRO 上以 56.3 分稳居第二名。它可以独立追踪多文件仓库，从原始问题报告中隔离错误，并生成能够通过自动化单元测试的功能补丁。虽然在 Terminal-Bench 2.1 (59.5) 和 GDPVal-AA (45.8) 等评估中与绝对峰值相比存在明显的优化空间，但这些结果也为系统交互和结构化专业产出的可靠性建立了基线。 Step 3.7 Flash 在通用智能体、智能体编码和多模态评估中的基准测试结果（https://huggingface.co/stepfun-ai/Step-3.7-Flash/blob/main/assets/benchmarks.png） ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#3-pricing3. 定价 Token 类型价格输入（缓存未命中） $0.20 / 百万 token输入（缓存命中）$ 0.04 / 百万 token输出$1.15 / 百万 token ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#4-availability-deployment-and-ecosystem4. 可用性、部署与生态系统 - 可用性：Step 3.7 Flash 已在阶跃星辰开放平台 — platform.stepfun.ai (https://platform.stepfun.ai/)（全球）和 platform.stepfun.com (https://platform.stepfun.com/)（中国）、OpenRouter 以及 NVIDIA NIM 上提供。StepFun 还正在与 DeepInfra、Fireworks AI 和 Modal 合作，以尽快扩大可用范围。 - 部署：Step 3.7 Flash 支持在云端、数据中心和本地环境中的灵活部署。对于大规模生产和企业用例，可部署在现代化数据中心基础设施上。对于本地和工作站场景，它也可以在具有高内存的设备上运行，例如 NVIDIA DGX Station、基于 AMD Ryzen AI Max+ 395 的系统，以及配备至少 128GB 统一内存的 Mac Studio / MacBook Pro 设备。 - 生态系统：Step 3.7 Flash 在流行的开源基础设施上均获得支持，适用于推理和模型开发。对于推理和服务，开发者可以使用 vLLM、SGLang、Hugging Face Transformers 和 llama.cpp。对于模型开发和定制工作流，阶跃星辰模型支持已纳入 NVIDIA Nemo 生态系统，包括 AutoModel、Megatron Core 和 Megatron Bridge。Step 3.7 Flash 也可作为 NVIDIA NIM 推理微服务，用于本地、云端或混合部署。 ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#5-examples5. 示例您可以通过 StepFun 的 API 或其他推理提供商，在几分钟内开始使用 Step 3.7 Flash。 > 选择适合您所在地区的`base\_url`。StepFun 运营两个区域平台，使用不同的 API 主机。您传递给 OpenAI 客户端的`base\_url`必须与您的 API 密钥颁发平台匹配，否则请求将被拒绝为未授权。 > - 全球：platform.stepfun.ai (https://platform.stepfun.ai/) — `base\_url=https://api.stepfun.ai/v1` > - 中国：platform.stepfun.com (https://platform.stepfun.com/) — `base\_url=https://api.stepfun.com/v1` 为了避免硬编码错误的区域，以下示例通过环境变量读取 API 密钥和基础 URL。在运行前请先导出它们： `export STEP_API_KEY="sk-..." export STEP_BASE_URL="https://api.stepfun.ai/v1" # 使用 https://api.stepfun.com/v1 用于中国平台` ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#51-chat-example5.1 聊天示例 import os from openai import OpenAI client = OpenAI( api_key=os.environ["STEP_API_KEY"], base_url=os.environ["STEP_BASE_URL"], ) completion = client.chat.completions.create( model="step-3.7-flash", messages=[ { "role": "system", "content": "你是一个由阶跃星辰提供的AI助手。你擅长中文、英文以及许多其他语言，并且能够看、想和行动来帮助用户完成任务。", }, { "role": "user", "content": "介绍一下阶跃星辰的人工智能能力。" }, ], ) print(completion) ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#52-text-and-image-input-example5.2 文本与图像输入示例 `import os from openai import OpenAI client = OpenAI( api_key=os.environ["STEP_API_KEY"], base_url=os.environ["STEP_BASE_URL"], ) completion = client.chat.completions.create( model="step-3.7-flash", messages=[ { "role": "user", "content": [ {"type": "text", "text": "这张图片里有什么？"}, { "type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}, }, ], }, ], ) print(completion)` ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#6-local-deployment6. 本地部署 Step 3.7 Flash 针对本地推理进行了优化，并支持行业标准的后端，包括 vLLM、SGLang、Hugging Face Transformers 和 llama.cpp。 ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#61-vllm6.1 vLLM 我们建议使用 StepFun 预构建的带 Step 3.7 支持的 vLLM Docker 镜像。 1. 安装 vLLM。 `# 通过 Docker docker pull vllm/vllm-openai:stepfun37` 1. 启动服务器。 - 使用 FP8 模型： `vllm serve \ --served-model-name step3p7-flash \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --speculative_config '{"method": "mtp", "num_speculative_tokens": 3}' \ --trust-remote-code` - 使用 BF16 模型： `vllm serve \ --served-model-name step3p7-flash-bf16 \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --speculative_config '{"method": "mtp", "num_speculative_tokens": 3}' \ --trust-remote-code` - 使用 NVFP4 模型：与标准精度相比，运行 FP4 量化版本需要启用 modelopt 和 FP8 KV Cache 对齐。 `python3 -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 \ --port ${PORT} \ --model stepfun-ai/Step-3.7-Flash-NVFP4 \ --served-model-name step3p7 \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.9 \ --enable-expert-parallel \ --trust-remote-code \ --quantization modelopt \ --kv-cache-dtype fp8 \ --max-model-len 8192 \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --async-scheduling` ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#62-sglang6.2 SGLang 1. 安装 SGLang。 `# 通过 Docker docker pull lmsysorg/sglang:dev-step-3.7-flash # 或从源码 (pip) 安装 pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git"` 1. 启动服务器。 > 注意：对于 Blackwell GPU，可以使用`\-\-mm\-attention\-backend fa4`。 - 使用 BF16 模型： `sglang serve --model-path stepfun-ai/Step-3.7-Flash \ --tp 8 \ --reasoning-parser step3p5 \ --tool-call-parser step3p5 \ --enable-multimodal \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --enable-multi-layer-eagle \ --trust-remote-code \ --host 0.0.0.0 \ --port 8000` - 使用 FP8 模型： `sglang serve --model-path stepfun-ai/Step-3.7-Flash-FP8 \ --tp 8 \ --ep 4 \ --reasoning-parser step3p5 \ --tool-call-parser step3p5 \ --enable-multimodal \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --enable-multi-layer-eagle \ --trust-remote-code \ --host 0.0.0.0 \ --port 8000` - 使用 NVFP4 模型： `sglang serve --model-path stepfun-ai/Step-3.7-Flash-NVFP4 \ --tp 4 --ep 4 \ --moe-runner-backend flashinfer_trtllm \ --kv-cache-dtype fp8_e4m3 \ --quantization modelopt_fp4 \ --trust-remote-code \ --reasoning-parser step3p5 \ --tool-call-parser step3p5 \ --attention-backend trtllm_mha` ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#63-transformers-debug–verification6.3 Transformers（调试 / 验证）使用以下代码片段进行快速功能验证。对于高吞吐服务，请使用 vLLM 或 SGLang。 > 注意：部署此模型需要`transformers` 5.0 或更高版本。 from transformers import AutoProcessor, AutoModelForCausalLM MODEL_PATH = "" # 1. 设置 processor = AutoProcessor.from_pretrained(MODEL_PATH, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, device_map="auto", dtype="auto", trust_remote_code=True ) # 2. 准备输入 messages = [ { "role": "user", "content": [ {"type": "image", "url": "https://example.com/photo.jpg"}, {"type": "text", "text": "这张图片里有什么？"} ] }, ] inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt", ).to(model.device) # 3. 生成 generated_ids = model.generate(inputs, max_new_tokens=128, do_sample=False) output_text = processor.decode(generated_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) print(output_text) ### https://huggingface.co/stepfun-ai/Step-3.7-Flash#64-llamacpp6.4 llama.cpp 系统要求 GGUF 模型权重：组件量化文件大小语言模型Q4_K_S111.5 GB语言模型IQ4_XS104.99 GB语言模型Q3_K_L102.5 GB多模态投影器FP163.97 GB - 运行时开销：约 7 GB - 最低统一内存 / 显存： 120 GB（例如 Mac Studio、NVIDIA DGX Station、AMD Ryzen AI Max+ 395） - 推荐： 128 GB 统一内存步骤 1. 使用 llama.cpp: `git clone https://github.com/stepfun-ai/llama.cpp.git cd llama.cpp git checkout -b step3.7 origin/step3.7` 1. 在 Mac 上构建 llama.cpp: `cmake -B build-macos -S . \ -DCMAKE_BUILD_TYPE=Release \ -DBUILD_SHARED_LIBS=ON \ -DLLAMA_BUILD_SERVER=ON \ -DLLAMA_BUILD_TESTS=ON \ -DGGML_METAL=ON \ -DGGML_METAL_EMBED_LIBRARY=ON \ -DGGML_BLAS=ON \ -DGGML_BLAS_VENDOR=Apple \ -DGGML_ACCELERATE=ON \ -DGGML_NATIVE=ON cmake --build build-macos -j8` 1. 在 DGX-Spark 上构建 llama.cpp: `cmake -S . -B build-cuda \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON \ -DGGML_CUDA_GRAPHS=ON \ -DGGML_CUDA_FORCE_MMQ=ON \ -DLLAMA_OPENSSL=OFF \ -DLLAMA_BUILD_COMMON=ON \ -DLLAMA_BUILD_TOOLS=ON \ -DLLAMA_BUILD_SERVER=ON \ -DLLAMA_BUILD_EXAMPLES=OFF \ -DLLAMA_BUILD_TESTS=OFF cmake --build build-cuda -j8` 1. 在 AMD Windows 上构建 llama.cpp: `cmake -S . -B build-vulkan \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_VULKAN=ON \ -DGGML_NATIVE=ON \ -DLLAMA_BUILD_SERVER=ON \ -DLLAMA_BUILD_UI=OFF \ -DLLAMA_BUILD_TOOLS=ON cmake --build build-vulkan -j8` 1. 使用`llama-cli`运行: `./llama-cli -m Step3.7_Q4_K_S.gguf -b 2048 -ub 2048 -fa on --temp 1.0 -p "What's your name?"` 1. 使用`llama-batched-bench`测试性能: `./llama-batched-bench -m step3.7_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1` ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#7-using-step-37-flash-on-agent-platforms7. 在智能体平台上使用 Step 3.7 Flash 您可以在 Hermes Agent、OpenClaw、Kilo Code 等智能体平台上使用 Step 3.7 Flash。 ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#8-getting-in-touch8. 联系我们在我们努力通过扩展广泛的模型能力来塑造 AGI 未来的过程中，我们希望确保我们在解决正确的问题。我们邀请您加入这个持续的反馈循环——您的见解直接影响我们的优先级。 - 加入讨论：我们的 Discord (https://discord.gg/RcMJhNVAQc) 社区是讨论未来架构、提出能力需求以及获取早期更新信息的主要中心 🚀 - 报告问题：** 遇到限制？您可以在 GitHub / HuggingFace 上提交 issue 或发起讨论，也可以在我们的 Discord 支持频道中直接标记。 ## https://huggingface.co/stepfun-ai/Step-3.7-Flash#%F0%9F%93%84-license📄 许可协议本项目采用 Apache 2.0 许可证 (https://www.apache.org/licenses/LICENSE-2.0) 开源。

相似文章

stepfun-ai/Step-3.7-Flash-GGUF

Hugging Face Models Trending

StepFun 发布了其 198B 参数的稀疏 MoE 视觉语言模型 Step-3.7-Flash 的 GGUF 量化版本，支持本地部署，最高 256K 上下文长度和可选择的推理级别。

@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级高达400 tokens/秒

X AI KOLs Timeline

StepFun 发布了 Step-3.7-Flash，这是一个新的视觉语言 MoE 大模型，拥有 198B 参数（11B 激活），256K 上下文，推理速度高达 400 tokens/秒。

StepFun 3.7 Flash

Reddit r/LocalLLaMA

StepFun 发布了 Step 3.7 Flash，这是一个高效的多模态模型，针对真实世界的智能体任务进行了优化，具有改进的编码基准（SWE-Bench Pro、Terminal-Bench）并兼容多种智能体框架。

@modal: Modal上Step 3.7 Flash的Day 0支持 - 198B参数的MoE，11B激活参数 - 256K上下文 - 3个推理层级 - N…

X AI KOLs Following

Modal宣布为Step 3.7 Flash AI模型提供Day 0支持，该模型拥有198B参数的MoE（11B激活参数）、256K上下文、三个推理层级，以及原生图像和视频理解能力。

Stepfun 3.7 Flash 表现非常出色