@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?

X AI KOLs Following 工具

摘要

antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。

DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?👀 https://t.co/gG0pR6EIkK
查看原文
查看缓存全文

缓存时间: 2026/05/17 03:26

在一张 RTX Pro 6000 上跑 DeepSeek V4 Flash?👀

https://t.co/gG0pR6EIkK


antirez/deepseek-v4-gguf · Hugging Face

来源:https://huggingface.co/antirez/deepseek-v4-gguf

https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 针对 ds4 的 GGUF

这些量化版本专门为 DS4 推理引擎设计。它们可能也适用于其他推理引擎,也可能不适用(理论上应该可以,但 MTP 模型需要特定的加载器)。

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf#files文件

文件大小路由专家 (ffn_{gate,up,down}_exps)其余部分
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf80.8 GiBIQ2_XXS (gate, up) + Q2_K (down)Q8_0 注意力投影 / 共享专家 / 输出,F16 路由器 + 嵌入 + 索引器 + 压缩器 + HC,F32 归一化层 / 吸积 / 偏置
DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf153.3 GiBQ4_K (全部三个)同上
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf3.6 GiBMTP / 推测解码支持(可选,非独立使用)

在 128 GB 的 Mac 机器上使用 q2,在 ≥ 256 GB 内存的机器上使用 q4,两者均可搭配 MTP 以支持可选的推测解码。

https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化配方

文件名即为规格说明。以 q2 文件为例:

张量类量化方式备注
blk.*.ffn_gate_expsblk.*.ffn_up_expsIQ2_XXS路由专家的 up/gate
blk.*.ffn_down_expsQ2_K路由专家的 down(使用 K-量化以保证质量)
blk.*.ffn_{gate,up,down}_shexpQ8_0共享专家
blk.*.attn_q_aattn_q_battn_kvattn_output_aattn_output_bQ8_0所有注意力投影(MLA + 低秩输出)
output.weightQ8_0输出头
token_embd.weightF16输入嵌入
blk.*.ffn_gate_inp(路由器)F16学习得到的路由器
blk.*.exp_probs_b(路由偏置)、blk.*.attn_sinks、所有 *_norm.weightF32
blk.*.ffn_gate_tid2eidI32哈希路由表(仅前 3 层)
blk.*.attn_compressor_*blk.*.indexer_*blk.*.hc_*blk.*.output_hc_*F16 / F32DSv4 特定的辅助模块

对于 q4 文件,仅三个路由专家类别改为 Q4_K,其余所有部分与 q2 配方逐字节相同。

这种非对称设计背后的考量:路由专家占了绝大部分参数量,但每个专家只处理一小部分 token,因此对它们进行激进量化对平均质量的影响,远小于对路由器、投影或共享专家进行同样处理。将决策相关组件保持在 Q8_0 可保留模型行为;压缩专家则换来了体积的减小。

https://huggingface.co/antirez/deepseek-v4-gguf#usage使用

git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2     # 128 GB 内存的机器
./download_model.sh q4     # >= 256 GB 内存的机器
./download_model.sh mtp    # 可选:MTP 推测解码
make

./ds4 -p "用一段话解释 Redis Streams。"
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

download_model.sh 脚本会从本仓库获取模型,支持断点续传,并将 ./ds4flash.gguf 指向所选变体。

https://huggingface.co/antirez/deepseek-v4-gguf#license许可证

MIT。基础模型的版权归 DeepSeek 所有;GGUF 文件根据基础模型的发布条款进行再分发。

相似文章

antirez/deepseek-v4-gguf

Hugging Face Models Trending

Antirez发布了专门为DS4推理引擎优化的DeepSeek V4 Flash GGUF量化版本,针对不同内存大小提供了优化配置,使得这个大型MoE模型可以在本地运行。

Deepseek V4 Flash 在 RTX 5090 MoE 上运行

Reddit r/LocalLLaMA

用户分享了在 RTX 5090 上使用 llama.cpp 的一个分支运行 DeepSeek-V4-Flash (Q2_K) 的优化基准测试结果,实现了 21.3 token/秒的生成速度和 100 万上下文大小。