@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?
摘要
antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。
查看缓存全文
缓存时间: 2026/05/17 03:26
在一张 RTX Pro 6000 上跑 DeepSeek V4 Flash?👀
https://t.co/gG0pR6EIkK
antirez/deepseek-v4-gguf · Hugging Face
来源:https://huggingface.co/antirez/deepseek-v4-gguf
https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 针对 ds4 的 GGUF
这些量化版本专门为 DS4 推理引擎设计。它们可能也适用于其他推理引擎,也可能不适用(理论上应该可以,但 MTP 模型需要特定的加载器)。
https://github.com/antirez/ds4
https://huggingface.co/antirez/deepseek-v4-gguf#files文件
| 文件 | 大小 | 路由专家 (ffn_{gate,up,down}_exps) | 其余部分 |
|---|---|---|---|
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf | 80.8 GiB | IQ2_XXS (gate, up) + Q2_K (down) | Q8_0 注意力投影 / 共享专家 / 输出,F16 路由器 + 嵌入 + 索引器 + 压缩器 + HC,F32 归一化层 / 吸积 / 偏置 |
DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf | 153.3 GiB | Q4_K (全部三个) | 同上 |
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf | 3.6 GiB | MTP / 推测解码支持(可选,非独立使用) |
在 128 GB 的 Mac 机器上使用 q2,在 ≥ 256 GB 内存的机器上使用 q4,两者均可搭配 MTP 以支持可选的推测解码。
https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化配方
文件名即为规格说明。以 q2 文件为例:
| 张量类 | 量化方式 | 备注 |
|---|---|---|
blk.*.ffn_gate_exps、blk.*.ffn_up_exps | IQ2_XXS | 路由专家的 up/gate |
blk.*.ffn_down_exps | Q2_K | 路由专家的 down(使用 K-量化以保证质量) |
blk.*.ffn_{gate,up,down}_shexp | Q8_0 | 共享专家 |
blk.*.attn_q_a、attn_q_b、attn_kv、attn_output_a、attn_output_b | Q8_0 | 所有注意力投影(MLA + 低秩输出) |
output.weight | Q8_0 | 输出头 |
token_embd.weight | F16 | 输入嵌入 |
blk.*.ffn_gate_inp(路由器) | F16 | 学习得到的路由器 |
blk.*.exp_probs_b(路由偏置)、blk.*.attn_sinks、所有 *_norm.weight | F32 | |
blk.*.ffn_gate_tid2eid | I32 | 哈希路由表(仅前 3 层) |
blk.*.attn_compressor_*、blk.*.indexer_*、blk.*.hc_*、blk.*.output_hc_* | F16 / F32 | DSv4 特定的辅助模块 |
对于 q4 文件,仅三个路由专家类别改为 Q4_K,其余所有部分与 q2 配方逐字节相同。
这种非对称设计背后的考量:路由专家占了绝大部分参数量,但每个专家只处理一小部分 token,因此对它们进行激进量化对平均质量的影响,远小于对路由器、投影或共享专家进行同样处理。将决策相关组件保持在 Q8_0 可保留模型行为;压缩专家则换来了体积的减小。
https://huggingface.co/antirez/deepseek-v4-gguf#usage使用
git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2 # 128 GB 内存的机器
./download_model.sh q4 # >= 256 GB 内存的机器
./download_model.sh mtp # 可选:MTP 推测解码
make
./ds4 -p "用一段话解释 Redis Streams。"
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
download_model.sh 脚本会从本仓库获取模型,支持断点续传,并将 ./ds4flash.gguf 指向所选变体。
https://huggingface.co/antirez/deepseek-v4-gguf#license许可证
MIT。基础模型的版权归 DeepSeek 所有;GGUF 文件根据基础模型的发布条款进行再分发。
相似文章
antirez/deepseek-v4-gguf
Antirez发布了专门为DS4推理引擎优化的DeepSeek V4 Flash GGUF量化版本,针对不同内存大小提供了优化配置,使得这个大型MoE模型可以在本地运行。
在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s
这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。
Deepseek V4 Flash 在 RTX 5090 MoE 上运行
用户分享了在 RTX 5090 上使用 llama.cpp 的一个分支运行 DeepSeek-V4-Flash (Q2_K) 的优化基准测试结果,实现了 21.3 token/秒的生成速度和 100 万上下文大小。
你可以在 Mac (M3 Max, 96GB) 上运行 Deepseek 4 flash
介绍如何在配备 96GB 内存的 Mac M3 Max 上,使用 Antirez 的 ds4 引擎和 SSD 流式传输运行 DeepSeek 4 flash,实现约每秒 12 token 的推理速度。