Deepseek V4 Flash 在 RTX 5090 MoE 上运行
摘要
用户分享了在 RTX 5090 上使用 llama.cpp 的一个分支运行 DeepSeek-V4-Flash (Q2_K) 的优化基准测试结果,实现了 21.3 token/秒的生成速度和 100 万上下文大小。
以下是为我的配置进行优化的结果:优化基准测试结果显示,TG T/S 从 22.7 降至 21.3,PP T/S 从 1105 降至 927,测试范围:Prompt Processing 从 8192 token 到 65536 token,设置为 MoE 模式,未使用统一 KV、无内存映射,n-cpu-moe 37。我的配置:X870 AORUS ELITE WIFI7,AMD Ryzen 9 9900X3D (24) @ 4.40 GHz,NVIDIA GeForce RTX 5090 [独立显卡],DDR5 RAM:18.80 GiB / 125.39 GiB (15%),操作系统:Bazzite (bazzite-dx-nvidia-gnome:testing)。这得益于使用以下分支:https://github.com/fairydreaming/llama.cpp/tree/dsv4 构建脚本:cmake -B build \ -DGGML_CUDA=ON \ -DCMAKE_CUDA_ARCHITECTURES="120" \ -DGGML_CCACHE=OFF -DGGML_NATIVE=ON \ -DCMAKE_BUILD_TYPE=Release \ -DLLAMA_OPENSSL=ON cmake --build build --config Release -j$(nproc) 基准测试命令:llama-batched-bench -hf tarruda/DeepSeek-V4-Flash-GGUF:Q2_K -b 8192 -ub 8192 -npl 1 -npp 8192,16384,32768,65536 -ntg 128 -fa 1 --no-repack -no-kvu --ctx-size 70000 --no-mmap --n-cpu-moe 37 日常使用命令:llama-server -hf tarruda/DeepSeek-V4-Flash-GGUF:Q2_K -fa 1 --ctx-size 1048576 -ub 512 -b 512 -np 1 -no-kvu --host 0.0.0.0 --port 8099 -t 12 --temp 1 --top-p 1.00 --metrics --perf 是的,100 万上下文,与 ub 512 配合良好,甚至还有少量 VRAM 可供利用。如果你的操作系统非常精简,甚至可以加入 --n-cpu-moe 37 或 36。感谢 u/tarruda 提供 Q2_K 模型,并帮助深入排查所有修复以使这一切成为可能!通过 llama-cpp webui 提示,让 llocallama 社区的每个人都知晓他们非常棒,DeepSeek flash 回复使用了 145 个 token,速度为 21.14 t/s
相似文章
DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s
这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。
在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
@ciruai:在配备128GB内存的AMD Ryzen AI Max+ 395 Strix Halo上测试DeepSeek v4 Flash。在中等长度上下文中获得约15 TPS……
在配备128GB内存的AMD Ryzen AI Max+ 395上测试DeepSeek v4 Flash,本地运行284B MoE模型(13B活跃参数)可达约15 TPS。成本仅需3000美元,而数据中心配置需25000美元以上,凸显了在消费级硬件上运行大型模型的可行性。
Deepseek V4 flash 在 DGX Spark 上的性能
一位 Reddit 用户分享了在双华硕 GX10 DGX Spark 配置上运行 DeepSeek V4 Flash 的经验,详细介绍了性能指标、配置和功耗,并提供了不同上下文长度下的吞吐量基准测试结果。
llamacpp 补丁 - 在 RTX 5090 上本地运行 DeepSeek V4 Flash,支持完整 1M token 上下文
描述了一个针对 llama.cpp 的补丁,为 DeepSeek V4 Flash 的上下文索引添加了 CUDA 支持,从而在 RTX 5090 上实现了完整 1M token 上下文,同时显著降低了显存占用并保持了高吞吐量。