DeepSpec - deepseek-ai 集合
摘要
DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合,包含基于 Qwen3 和 Gemma4 的各种尺寸(1B-3B)的推测解码模型(dspark, dflash, eagle3)。
暂无内容
查看缓存全文
缓存时间: 2026/06/28 16:09
DeepSpec - deepseek-ai 的模型集合
来源:https://huggingface.co/collections/deepseek-ai/deepspec 约3小时前更新
- — #### deepseek-ai/dspark_qwen3_4b_block7 1B • 约4小时前更新 • 4 (https://huggingface.co/deepseek-ai/dspark_qwen3_4b_block7) Note dspark_qwen3_4b_block7
- — #### deepseek-ai/dspark_qwen3_8b_block7 2B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/dspark_qwen3_8b_block7) Note dspark_qwen3_8b_block7
- — #### deepseek-ai/dspark_qwen3_14b_block7 3B • 约4小时前更新 • 2 (https://huggingface.co/deepseek-ai/dspark_qwen3_14b_block7) Note dspark_qwen3_14b_block7
- — #### deepseek-ai/dspark_gemma4_12b_block7 3B • 约4小时前更新 • 3 (https://huggingface.co/deepseek-ai/dspark_gemma4_12b_block7) Note dspark_gemma4_12b_block7
- — #### deepseek-ai/dflash_qwen3_4b_block7 1B • 约4小时前更新 (https://huggingface.co/deepseek-ai/dflash_qwen3_4b_block7) Note dflash_qwen3_4b_block7
- — #### deepseek-ai/dflash_qwen3_8b_block7 2B • 约4小时前更新 (https://huggingface.co/deepseek-ai/dflash_qwen3_8b_block7) Note dflash_qwen3_8b_block7
- — #### deepseek-ai/dflash_qwen3_14b_block7 3B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/dflash_qwen3_14b_block7) Note dflash_qwen3_14b_block7
- — #### deepseek-ai/dflash_gemma4_12b_block7 3B • 约4小时前更新 • 2 (https://huggingface.co/deepseek-ai/dflash_gemma4_12b_block7) Note dflash_gemma4_12b_block7
- — #### deepseek-ai/eagle3_qwen3_4b_ttt7 0.9B • 约4小时前更新 (https://huggingface.co/deepseek-ai/eagle3_qwen3_4b_ttt7) Note eagle3_qwen3_4b_ttt7
- — #### deepseek-ai/eagle3_qwen3_8b_ttt7 2B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/eagle3_qwen3_8b_ttt7) Note eagle3_qwen3_8b_ttt7
- — #### deepseek-ai/eagle3_qwen3_14b_ttt7 2B • 约4小时前更新 (https://huggingface.co/deepseek-ai/eagle3_qwen3_14b_ttt7) Note eagle3_qwen3_14b_ttt7
- — #### deepseek-ai/eagle3_gemma4_12b_ttt7 2B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/eagle3_gemma4_12b_ttt7) Note eagle3_gemma4_12b_ttt7
相似文章
deepseek-ai/DeepSeek-V4-Flash-DSpark
DeepSeek 发布 V4 系列混合专家语言模型(Pro 1.6T/49B 激活参数,Flash 284B/13B 激活参数),支持百万 token 上下文,采用混合注意力和推测解码,声称具有最佳开源模型性能。
DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]
DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。
@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
@charles_irl: 这是spec火热夏天
DeepSeek 开源了 DeepSpec,一个用于训练和评估推测解码模型的完整技术栈代码库。
deepseek-ai/DeepSeek-V4-Pro-DSpark
DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。