Deepseek V4 Flash 在 RTX 5090 MoE 上运行

Reddit r/LocalLLaMA 2026/07/03 22:48 模型

deepseek rtx-5090 benchmarking optimization llama-cpp moe gguf

摘要

用户分享了在 RTX 5090 上使用 llama.cpp 的一个分支运行 DeepSeek-V4-Flash (Q2_K) 的优化基准测试结果，实现了 21.3 token/秒的生成速度和 100 万上下文大小。

以下是为我的配置进行优化的结果：优化基准测试结果显示，TG T/S 从 22.7 降至 21.3，PP T/S 从 1105 降至 927，测试范围：Prompt Processing 从 8192 token 到 65536 token，设置为 MoE 模式，未使用统一 KV、无内存映射，n-cpu-moe 37。我的配置：X870 AORUS ELITE WIFI7，AMD Ryzen 9 9900X3D (24) @ 4.40 GHz，NVIDIA GeForce RTX 5090 [独立显卡]，DDR5 RAM：18.80 GiB / 125.39 GiB (15%)，操作系统：Bazzite (bazzite-dx-nvidia-gnome:testing)。这得益于使用以下分支：https://github.com/fairydreaming/llama.cpp/tree/dsv4 构建脚本：cmake -B build \ -DGGML_CUDA=ON \ -DCMAKE_CUDA_ARCHITECTURES="120" \ -DGGML_CCACHE=OFF -DGGML_NATIVE=ON \ -DCMAKE_BUILD_TYPE=Release \ -DLLAMA_OPENSSL=ON cmake --build build --config Release -j$(nproc) 基准测试命令：llama-batched-bench -hf tarruda/DeepSeek-V4-Flash-GGUF:Q2_K -b 8192 -ub 8192 -npl 1 -npp 8192,16384,32768,65536 -ntg 128 -fa 1 --no-repack -no-kvu --ctx-size 70000 --no-mmap --n-cpu-moe 37 日常使用命令：llama-server -hf tarruda/DeepSeek-V4-Flash-GGUF:Q2_K -fa 1 --ctx-size 1048576 -ub 512 -b 512 -np 1 -no-kvu --host 0.0.0.0 --port 8099 -t 12 --temp 1 --top-p 1.00 --metrics --perf 是的，100 万上下文，与 ub 512 配合良好，甚至还有少量 VRAM 可供利用。如果你的操作系统非常精简，甚至可以加入 --n-cpu-moe 37 或 36。感谢 u/tarruda 提供 Q2_K 模型，并帮助深入排查所有修复以使这一切成为可能！通过 llama-cpp webui 提示，让 llocallama 社区的每个人都知晓他们非常棒，DeepSeek flash 回复使用了 145 个 token，速度为 21.14 t/s

查看原文

Deepseek V4 Flash 在 RTX 5090 MoE 上运行

相似文章

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

@ciruai：在配备128GB内存的AMD Ryzen AI Max+ 395 Strix Halo上测试DeepSeek v4 Flash。在中等长度上下文中获得约15 TPS……

Deepseek V4 flash 在 DGX Spark 上的性能

llamacpp 补丁 - 在 RTX 5090 上本地运行 DeepSeek V4 Flash，支持完整 1M token 上下文

提交意见反馈