antirez/deepseek-v4-gguf
摘要
Antirez发布了专门为DS4推理引擎优化的DeepSeek V4 Flash GGUF量化版本,针对不同内存大小提供了优化配置,使得这个大型MoE模型可以在本地运行。
查看缓存全文
缓存时间: 2026/05/13 18:11
antirez/deepseek-v4-gguf · Hugging Face
来源:https://huggingface.co/antirez/deepseek-v4-gguf
https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 适用于ds4的GGUF格式
这些量化版本专为DS4推理引擎定制,也可能适用于其他推理引擎(理应兼容,但MTP模型需要特定加载器除外)。
https://github.com/antirez/ds4
https://huggingface.co/antirez/deepseek-v4-gguf#files文件
| 文件 | 大小 | 路由专家 (ffn\_{gate,up,down}\_exps) | 其他所有部分 |
|---|---|---|---|
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf | 80.8 GiB | IQ2_XXS (gate, up) + Q2_K (down) | Q8_0: 注意力投影/共享专家/输出头, F16: 路由器 + 嵌入 + 索引器 + 压缩器 + HC, F32: 归一化层/sinks/偏置 |
DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf | 153.3 GiB | Q4_K (全部三个) | 同上 |
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf | 3.6 GiB | MTP/推测解码支持(可选,非独立使用) |
在128 GB内存的Mac机器上使用q2版本,在**≥256 GB内存的机器上使用q4版本,均可搭配MTP**版本获得可选的推测解码支持。
https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化方案
文件名即规格说明。以q2文件为例的详细说明:
| 张量类别 | 量化精度 | 备注 |
|---|---|---|
blk.*.ffn_gate_exps, blk.*.ffn_up_exps | IQ2_XXS | 路由专家 上/门控 |
blk.*.ffn_down_exps | Q2_K | 路由专家 下(K量化以保证质量) |
blk.*.ffn_{gate,up,down}_shexp | Q8_0 | 共享专家 |
blk.*.attn_q_a, attn_q_b, attn_kv, attn_output_a, attn_output_b | Q8_0 | 所有注意力投影(MLA + 低秩输出) |
output.weight | Q8_0 | 输出头 |
token_embd.weight | F16 | 输入嵌入 |
blk.*.ffn_gate_inp (路由器) | F16 | 学习型路由器 |
blk.*.exp_probs_b (路由器偏置), blk.*.attn_sinks, 所有 *_norm.weight | F32 | |
blk.*.ffn_gate_tid2eid | I32 | 哈希路由表(仅前3层) |
blk.*.attn_compressor_*, blk.*.indexer_*, blk.*.hc_*, blk.*.output_hc_* | F16/F32 | DSv4专用辅助模块 |
对于q4文件,仅三个路由专家类别改为Q4_K,其余部分与q2方案字节完全一致。
非对称量化的思路:路由专家占据参数量的大头,但每个专家只处理一小部分token,因此对其激进量化对平均质量的影响小于对路由器、投影或共享专家做同样处理。将决策相关组件保持在Q8_0可保留模型行为;压缩专家部分则能节省空间。
https://huggingface.co/antirez/deepseek-v4-gguf#usage使用
git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2 # 128 GB RAM 机器
./download_model.sh q4 # >= 256 GB RAM 机器
./download_model.sh mtp # 可选 MTP / 推测解码
make
./ds4 -p "用一段话解释 Redis 流。"
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
download_model.sh 脚本从本仓库下载文件,支持断点续传,并将 ./ds4flash.gguf 指向所选版本。
https://huggingface.co/antirez/deepseek-v4-gguf#license许可证
MIT 许可。基础模型版权归 DeepSeek 所有;GGUF 文件根据基础模型的发布条款进行再分发。
相似文章
@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?
antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。
DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。
@danveloper: 简直不敢相信,我竟然在树莓派 5(8GB 版)上以超过1 tok/s的速度运行了 DeepSeek-V4-Flash(284B 参数)……
一位开发者经过大量实验,成功在树莓派 5 上以超过1 tok/s的速度运行了284B参数的DeepSeek-V4-Flash模型,使用的是来自 antirez 的未经修改的 GGUF 文件。
Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。
关于 DS4 的几句话
Antirez 宣布了 DwarfStar 4 (DS4),这是一个本地AI工具,它采用非对称 2/8 位量化,在高端消费级硬件上运行 DeepSeek v4 Flash,实现接近前沿的性能。他谈到了该项目的迅速流行、未来的模型更新和分布式推理计划,以及本地AI对严肃任务的重要性。