@maximelabonne: 有趣的惊喜:DeepSeek 使用了我的 open-perfectblend 数据集来训练他们的新 DSpark drafter 是时候再次推广它了!它…
摘要
DeepSeek 使用了 open-perfectblend 数据集来训练他们的新 DSpark drafter;该数据集是《The Perfect Blend》论文的开源复现,提供了超过100万个数学、聊天和代码方面的多样化提示。
查看缓存全文
缓存时间: 2026/06/27 15:58
有趣的惊喜:DeepSeek 用我的 open-perfectblend 数据集训练了他们的新 DSpark 草稿模型
是时候再次推广它了!这是对《The Perfect Blend》论文的开源复现。
如果你需要超过100万个涵盖数学、对话和代码的多样化提示,它就能胜任。https://t.co/eWrwoGCqSI
相似文章
@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
@Michaelzsguo: 这是关于DeepSeek最新创新DSpark的最佳解读:可以把DSpark想象成:主模型快速构思句子,然后一个小型“编辑器”迅速修正连贯性...
DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。
deepseek-ai/DeepSeek-V4-Flash-DSpark
DeepSeek releases V4 series of Mixture-of-Experts language models (Pro 1.6T/49B activated, Flash 284B/13B activated) supporting one-million-token context with hybrid attention and speculative decoding, claiming best open-source model performance.
deepseek-ai/DeepSeek-V4-Pro-DSpark
DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。
@SuJinYan123:仅在DeepSeek开源Qwen DSpark权重6小时后,OpenInfer就已经在RTX 5…上支持DSpark运行
OpenInfer,一个纯粹的Rust+CUDA LLM推理引擎,快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持,实现了每个用户近500 tok/s,并扩展至约2.4K聚合tok/s,在非随机工作负载上优于DFlash。