DeepSpec - deepseek-ai 集合

Reddit r/LocalLLaMA 模型

摘要

DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合,包含基于 Qwen3 和 Gemma4 的各种尺寸(1B-3B)的推测解码模型(dspark, dflash, eagle3)。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/28 16:09

DeepSpec - deepseek-ai 的模型集合

来源:https://huggingface.co/collections/deepseek-ai/deepspec 约3小时前更新

  • — #### deepseek-ai/dspark_qwen3_4b_block7 1B • 约4小时前更新 • 4 (https://huggingface.co/deepseek-ai/dspark_qwen3_4b_block7) Note dspark_qwen3_4b_block7
  • — #### deepseek-ai/dspark_qwen3_8b_block7 2B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/dspark_qwen3_8b_block7) Note dspark_qwen3_8b_block7
  • — #### deepseek-ai/dspark_qwen3_14b_block7 3B • 约4小时前更新 • 2 (https://huggingface.co/deepseek-ai/dspark_qwen3_14b_block7) Note dspark_qwen3_14b_block7
  • — #### deepseek-ai/dspark_gemma4_12b_block7 3B • 约4小时前更新 • 3 (https://huggingface.co/deepseek-ai/dspark_gemma4_12b_block7) Note dspark_gemma4_12b_block7
  • — #### deepseek-ai/dflash_qwen3_4b_block7 1B • 约4小时前更新 (https://huggingface.co/deepseek-ai/dflash_qwen3_4b_block7) Note dflash_qwen3_4b_block7
  • — #### deepseek-ai/dflash_qwen3_8b_block7 2B • 约4小时前更新 (https://huggingface.co/deepseek-ai/dflash_qwen3_8b_block7) Note dflash_qwen3_8b_block7
  • — #### deepseek-ai/dflash_qwen3_14b_block7 3B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/dflash_qwen3_14b_block7) Note dflash_qwen3_14b_block7
  • — #### deepseek-ai/dflash_gemma4_12b_block7 3B • 约4小时前更新 • 2 (https://huggingface.co/deepseek-ai/dflash_gemma4_12b_block7) Note dflash_gemma4_12b_block7
  • — #### deepseek-ai/eagle3_qwen3_4b_ttt7 0.9B • 约4小时前更新 (https://huggingface.co/deepseek-ai/eagle3_qwen3_4b_ttt7) Note eagle3_qwen3_4b_ttt7
  • — #### deepseek-ai/eagle3_qwen3_8b_ttt7 2B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/eagle3_qwen3_8b_ttt7) Note eagle3_qwen3_8b_ttt7
  • — #### deepseek-ai/eagle3_qwen3_14b_ttt7 2B • 约4小时前更新 (https://huggingface.co/deepseek-ai/eagle3_qwen3_14b_ttt7) Note eagle3_qwen3_14b_ttt7
  • — #### deepseek-ai/eagle3_gemma4_12b_ttt7 2B • 约4小时前更新 • 1 (https://huggingface.co/deepseek-ai/eagle3_gemma4_12b_ttt7) Note eagle3_gemma4_12b_ttt7

相似文章

deepseek-ai/DeepSeek-V4-Flash-DSpark

Hugging Face Models Trending

DeepSeek 发布 V4 系列混合专家语言模型(Pro 1.6T/49B 激活参数,Flash 284B/13B 激活参数),支持百万 token 上下文,采用混合注意力和推测解码,声称具有最佳开源模型性能。

DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]

Hacker News Top

DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。

deepseek-ai/DeepSeek-V4-Pro-DSpark

Hugging Face Models Trending

DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。