antirez/deepseek-v4-gguf

Hugging Face Models Trending 2026/04/26 07:54 模型

deepseek gguf quantization inference-engine open-source local-ai

摘要

Antirez发布了专门为DS4推理引擎优化的DeepSeek V4 Flash GGUF量化版本，针对不同内存大小提供了优化配置，使得这个大型MoE模型可以在本地运行。

任务：文本生成标签：gguf, quantized, deepseek, deepseek-v4, deepseek-v4-flash, moe, mixture-of-experts, 2-bit, 4-bit, iq2_xxs, q2_k, q4_k, ds4, apple-silicon, metal, text-generation, en, base_model:deepseek-ai/DeepSeek-V4-Flash, base_model:quantized:deepseek-ai/DeepSeek-V4-Flash, license:mit, endpoints_compatible, region:us, conversational

查看原文

查看缓存全文

缓存时间: 2026/05/13 18:11

antirez/deepseek-v4-gguf · Hugging Face

来源：https://huggingface.co/antirez/deepseek-v4-gguf

https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 适用于ds4的GGUF格式

这些量化版本专为DS4推理引擎定制，也可能适用于其他推理引擎（理应兼容，但MTP模型需要特定加载器除外）。

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf#files文件

文件	大小	路由专家 (`ffn\_{gate,up,down}\_exps`)	其他所有部分
`DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf`	80.8 GiB	`IQ2_XXS` (gate, up) + `Q2_K` (down)	`Q8_0`: 注意力投影/共享专家/输出头, `F16`: 路由器 + 嵌入 + 索引器 + 压缩器 + HC, `F32`: 归一化层/sinks/偏置
`DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf`	153.3 GiB	`Q4_K` (全部三个)	同上
`DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf`	3.6 GiB	MTP/推测解码支持（可选，非独立使用）

在128 GB内存的Mac机器上使用q2版本，在**≥256 GB内存的机器上使用q4版本，均可搭配MTP**版本获得可选的推测解码支持。

https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化方案

文件名即规格说明。以q2文件为例的详细说明：

张量类别	量化精度	备注
`blk..ffn_gate_exps`, `blk..ffn_up_exps`	`IQ2_XXS`	路由专家上/门控
`blk.*.ffn_down_exps`	`Q2_K`	路由专家下（K量化以保证质量）
`blk.*.ffn_{gate,up,down}_shexp`	`Q8_0`	共享专家
`blk.*.attn_q_a`, `attn_q_b`, `attn_kv`, `attn_output_a`, `attn_output_b`	`Q8_0`	所有注意力投影（MLA + 低秩输出）
`output.weight`	`Q8_0`	输出头
`token_embd.weight`	`F16`	输入嵌入
`blk.*.ffn_gate_inp` (路由器)	`F16`	学习型路由器
`blk..exp_probs_b` (路由器偏置), `blk..attn_sinks`, 所有 `*_norm.weight`	`F32`
`blk.*.ffn_gate_tid2eid`	`I32`	哈希路由表（仅前3层）
`blk..attn_compressor_`, `blk..indexer_`, `blk..hc_`, `blk..output_hc_`	`F16`/`F32`	DSv4专用辅助模块

对于q4文件，仅三个路由专家类别改为Q4_K，其余部分与q2方案字节完全一致。

非对称量化的思路：路由专家占据参数量的大头，但每个专家只处理一小部分token，因此对其激进量化对平均质量的影响小于对路由器、投影或共享专家做同样处理。将决策相关组件保持在Q8_0可保留模型行为；压缩专家部分则能节省空间。

https://huggingface.co/antirez/deepseek-v4-gguf#usage使用

git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2     # 128 GB RAM 机器
./download_model.sh q4     # >= 256 GB RAM 机器
./download_model.sh mtp    # 可选 MTP / 推测解码
make

./ds4 -p "用一段话解释 Redis 流。"
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

download_model.sh 脚本从本仓库下载文件，支持断点续传，并将 ./ds4flash.gguf 指向所选版本。

https://huggingface.co/antirez/deepseek-v4-gguf#license许可证

MIT 许可。基础模型版权归 DeepSeek 所有；GGUF 文件根据基础模型的发布条款进行再分发。

antirez/deepseek-v4-gguf

antirez/deepseek-v4-gguf · Hugging Face

https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 适用于ds4的GGUF格式

https://huggingface.co/antirez/deepseek-v4-gguf#files文件

https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化方案

https://huggingface.co/antirez/deepseek-v4-gguf#usage使用

https://huggingface.co/antirez/deepseek-v4-gguf#license许可证

相似文章

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

@danveloper: 简直不敢相信，我竟然在树莓派 5（8GB 版）上以超过1 tok/s的速度运行了 DeepSeek-V4-Flash（284B 参数）……

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

关于 DS4 的几句话

提交意见反馈