Deepseek V4 Flash 在 RTX 5090 MoE 上运行

Reddit r/LocalLLaMA 模型

摘要

用户分享了在 RTX 5090 上使用 llama.cpp 的一个分支运行 DeepSeek-V4-Flash (Q2_K) 的优化基准测试结果,实现了 21.3 token/秒的生成速度和 100 万上下文大小。

以下是为我的配置进行优化的结果:优化基准测试结果显示,TG T/S 从 22.7 降至 21.3,PP T/S 从 1105 降至 927,测试范围:Prompt Processing 从 8192 token 到 65536 token,设置为 MoE 模式,未使用统一 KV、无内存映射,n-cpu-moe 37。我的配置:X870 AORUS ELITE WIFI7,AMD Ryzen 9 9900X3D (24) @ 4.40 GHz,NVIDIA GeForce RTX 5090 [独立显卡],DDR5 RAM:18.80 GiB / 125.39 GiB (15%),操作系统:Bazzite (bazzite-dx-nvidia-gnome:testing)。这得益于使用以下分支:https://github.com/fairydreaming/llama.cpp/tree/dsv4 构建脚本:cmake -B build \ -DGGML_CUDA=ON \ -DCMAKE_CUDA_ARCHITECTURES="120" \ -DGGML_CCACHE=OFF -DGGML_NATIVE=ON \ -DCMAKE_BUILD_TYPE=Release \ -DLLAMA_OPENSSL=ON cmake --build build --config Release -j$(nproc) 基准测试命令:llama-batched-bench -hf tarruda/DeepSeek-V4-Flash-GGUF:Q2_K -b 8192 -ub 8192 -npl 1 -npp 8192,16384,32768,65536 -ntg 128 -fa 1 --no-repack -no-kvu --ctx-size 70000 --no-mmap --n-cpu-moe 37 日常使用命令:llama-server -hf tarruda/DeepSeek-V4-Flash-GGUF:Q2_K -fa 1 --ctx-size 1048576 -ub 512 -b 512 -np 1 -no-kvu --host 0.0.0.0 --port 8099 -t 12 --temp 1 --top-p 1.00 --metrics --perf 是的,100 万上下文,与 ub 512 配合良好,甚至还有少量 VRAM 可供利用。如果你的操作系统非常精简,甚至可以加入 --n-cpu-moe 37 或 36。感谢 u/tarruda 提供 Q2_K 模型,并帮助深入排查所有修复以使这一切成为可能!通过 llama-cpp webui 提示,让 llocallama 社区的每个人都知晓他们非常棒,DeepSeek flash 回复使用了 145 个 token,速度为 21.14 t/s
查看原文

相似文章

Deepseek V4 flash 在 DGX Spark 上的性能

Reddit r/LocalLLaMA

一位 Reddit 用户分享了在双华硕 GX10 DGX Spark 配置上运行 DeepSeek V4 Flash 的经验,详细介绍了性能指标、配置和功耗,并提供了不同上下文长度下的吞吐量基准测试结果。