antirez/deepseek-v4-gguf

Hugging Face Models Trending 模型

摘要

Antirez发布了专门为DS4推理引擎优化的DeepSeek V4 Flash GGUF量化版本,针对不同内存大小提供了优化配置,使得这个大型MoE模型可以在本地运行。

任务:文本生成 标签:gguf, quantized, deepseek, deepseek-v4, deepseek-v4-flash, moe, mixture-of-experts, 2-bit, 4-bit, iq2_xxs, q2_k, q4_k, ds4, apple-silicon, metal, text-generation, en, base_model:deepseek-ai/DeepSeek-V4-Flash, base_model:quantized:deepseek-ai/DeepSeek-V4-Flash, license:mit, endpoints_compatible, region:us, conversational
查看原文
查看缓存全文

缓存时间: 2026/05/13 18:11

antirez/deepseek-v4-gguf · Hugging Face

来源:https://huggingface.co/antirez/deepseek-v4-gguf

https://huggingface.co/antirez/deepseek-v4-gguf#deepseek-v4-flash–gguf-for-ds4DeepSeek V4 Flash — 适用于ds4的GGUF格式

这些量化版本专为DS4推理引擎定制,也可能适用于其他推理引擎(理应兼容,但MTP模型需要特定加载器除外)。

https://github.com/antirez/ds4

https://huggingface.co/antirez/deepseek-v4-gguf#files文件

文件大小路由专家 (ffn\_{gate,up,down}\_exps)其他所有部分
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf80.8 GiBIQ2_XXS (gate, up) + Q2_K (down)Q8_0: 注意力投影/共享专家/输出头, F16: 路由器 + 嵌入 + 索引器 + 压缩器 + HC, F32: 归一化层/sinks/偏置
DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf153.3 GiBQ4_K (全部三个)同上
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf3.6 GiBMTP/推测解码支持(可选,非独立使用)

128 GB内存的Mac机器上使用q2版本,在**≥256 GB内存的机器上使用q4版本,均可搭配MTP**版本获得可选的推测解码支持。

https://huggingface.co/antirez/deepseek-v4-gguf#quantization-recipe量化方案

文件名即规格说明。以q2文件为例的详细说明:

张量类别量化精度备注
blk.*.ffn_gate_exps, blk.*.ffn_up_expsIQ2_XXS路由专家 上/门控
blk.*.ffn_down_expsQ2_K路由专家 下(K量化以保证质量)
blk.*.ffn_{gate,up,down}_shexpQ8_0共享专家
blk.*.attn_q_a, attn_q_b, attn_kv, attn_output_a, attn_output_bQ8_0所有注意力投影(MLA + 低秩输出)
output.weightQ8_0输出头
token_embd.weightF16输入嵌入
blk.*.ffn_gate_inp (路由器)F16学习型路由器
blk.*.exp_probs_b (路由器偏置), blk.*.attn_sinks, 所有 *_norm.weightF32
blk.*.ffn_gate_tid2eidI32哈希路由表(仅前3层)
blk.*.attn_compressor_*, blk.*.indexer_*, blk.*.hc_*, blk.*.output_hc_*F16/F32DSv4专用辅助模块

对于q4文件,仅三个路由专家类别改为Q4_K,其余部分与q2方案字节完全一致。

非对称量化的思路:路由专家占据参数量的大头,但每个专家只处理一小部分token,因此对其激进量化对平均质量的影响小于对路由器、投影或共享专家做同样处理。将决策相关组件保持在Q8_0可保留模型行为;压缩专家部分则能节省空间。

https://huggingface.co/antirez/deepseek-v4-gguf#usage使用

git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2     # 128 GB RAM 机器
./download_model.sh q4     # >= 256 GB RAM 机器
./download_model.sh mtp    # 可选 MTP / 推测解码
make

./ds4 -p "用一段话解释 Redis 流。"
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

download_model.sh 脚本从本仓库下载文件,支持断点续传,并将 ./ds4flash.gguf 指向所选版本。

https://huggingface.co/antirez/deepseek-v4-gguf#license许可证

MIT 许可。基础模型版权归 DeepSeek 所有;GGUF 文件根据基础模型的发布条款进行再分发。

相似文章

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

Hugging Face Models Trending

本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。

关于 DS4 的几句话

Hacker News Top

Antirez 宣布了 DwarfStar 4 (DS4),这是一个本地AI工具,它采用非对称 2/8 位量化,在高端消费级硬件上运行 DeepSeek v4 Flash,实现接近前沿的性能。他谈到了该项目的迅速流行、未来的模型更新和分布式推理计划,以及本地AI对严肃任务的重要性。