@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

X AI KOLs Following 2026/05/16 22:14 工具

deepseek gguf quantization local-inference open-source huggingface

摘要

antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本，使该模型能够在单张 GPU（如 RTX Pro 6000）以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face，并附有 DS4 推理引擎的使用说明。

DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？👀 https://t.co/gG0pR6EIkK

查看原文

查看缓存全文

缓存时间: 2026/05/17 03:26

在一张 RTX Pro 6000 上跑 DeepSeek V4 Flash？👀

https://t.co/gG0pR6EIkK

antirez/deepseek-v4-gguf · Hugging Face

来源：https://huggingface.co/antirez/deepseek-v4-gguf

https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 针对 ds4 的 GGUF

这些量化版本专门为 DS4 推理引擎设计。它们可能也适用于其他推理引擎，也可能不适用（理论上应该可以，但 MTP 模型需要特定的加载器）。

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf#files文件

文件	大小	路由专家 (`ffn_{gate,up,down}_exps`)	其余部分
`DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf`	80.8 GiB	`IQ2_XXS` (gate, up) + `Q2_K` (down)	`Q8_0` 注意力投影 / 共享专家 / 输出，`F16` 路由器 + 嵌入 + 索引器 + 压缩器 + HC，`F32` 归一化层 / 吸积 / 偏置
`DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf`	153.3 GiB	`Q4_K` （全部三个）	同上
`DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf`	3.6 GiB	MTP / 推测解码支持（可选，非独立使用）

在 128 GB 的 Mac 机器上使用 q2，在 ≥ 256 GB 内存的机器上使用 q4，两者均可搭配 MTP 以支持可选的推测解码。

https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化配方

文件名即为规格说明。以 q2 文件为例：

张量类	量化方式	备注
`blk..ffn_gate_exps`、`blk..ffn_up_exps`	`IQ2_XXS`	路由专家的 up/gate
`blk.*.ffn_down_exps`	`Q2_K`	路由专家的 down（使用 K-量化以保证质量）
`blk.*.ffn_{gate,up,down}_shexp`	`Q8_0`	共享专家
`blk.*.attn_q_a`、`attn_q_b`、`attn_kv`、`attn_output_a`、`attn_output_b`	`Q8_0`	所有注意力投影（MLA + 低秩输出）
`output.weight`	`Q8_0`	输出头
`token_embd.weight`	`F16`	输入嵌入
`blk.*.ffn_gate_inp`（路由器）	`F16`	学习得到的路由器
`blk..exp_probs_b`（路由偏置）、`blk..attn_sinks`、所有 `*_norm.weight`	`F32`
`blk.*.ffn_gate_tid2eid`	`I32`	哈希路由表（仅前 3 层）
`blk..attn_compressor_`、`blk..indexer_`、`blk..hc_`、`blk..output_hc_`	`F16` / `F32`	DSv4 特定的辅助模块

对于 q4 文件，仅三个路由专家类别改为 Q4_K，其余所有部分与 q2 配方逐字节相同。

这种非对称设计背后的考量：路由专家占了绝大部分参数量，但每个专家只处理一小部分 token，因此对它们进行激进量化对平均质量的影响，远小于对路由器、投影或共享专家进行同样处理。将决策相关组件保持在 Q8_0 可保留模型行为；压缩专家则换来了体积的减小。

https://huggingface.co/antirez/deepseek-v4-gguf#usage使用

git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2     # 128 GB 内存的机器
./download_model.sh q4     # >= 256 GB 内存的机器
./download_model.sh mtp    # 可选：MTP 推测解码
make

./ds4 -p "用一段话解释 Redis Streams。"
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

download_model.sh 脚本会从本仓库获取模型，支持断点续传，并将 ./ds4flash.gguf 指向所选变体。

https://huggingface.co/antirez/deepseek-v4-gguf#license许可证

MIT。基础模型的版权归 DeepSeek 所有；GGUF 文件根据基础模型的发布条款进行再分发。

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

在一张 RTX Pro 6000 上跑 DeepSeek V4 Flash？👀

antirez/deepseek-v4-gguf · Hugging Face

https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 针对 ds4 的 GGUF

https://huggingface.co/antirez/deepseek-v4-gguf#files文件

https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化配方

https://huggingface.co/antirez/deepseek-v4-gguf#usage使用

https://huggingface.co/antirez/deepseek-v4-gguf#license许可证

相似文章

antirez/deepseek-v4-gguf

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Deepseek V4 Flash 在 RTX 5090 MoE 上运行

你可以在 Mac (M3 Max, 96GB) 上运行 Deepseek 4 flash

提交意见反馈