@Hikari_07_jp: 进展报告!DFlash 骨干网络和马尔可夫头的训练已完成,使得 DSpark 可在 27B 上使用。我们将…
摘要
DSpark 的进展更新:DFlash 骨干网络和马尔可夫头的训练已完成,可在 27B 上使用。接下来将训练置信度头以实现自适应草稿生成,预计比 DFlash 加速 8-14%。
进展报告!
DFlash 骨干网络和马尔可夫头的训练已完成,使得 DSpark 可在 27B 上使用。我们现在将训练置信度头。
置信度头是一个关键组件,它决定在任何给定时刻应该提前生成多少个 token。我们预计这将比 DFlash 提速 8-14%。欢迎您就该项目提出问题、发表意见和反馈!
参见树结构以获取关于该项目的更多信息。
查看缓存全文
缓存时间: 2026/06/29 06:23
进展报告!
DFlash 的骨干网络和马尔可夫头的训练已完成,使得 DSpark 能够在 27B 参数规模上使用。接下来我们将训练置信度头。
置信度头是一个关键组件,用于决定在任意时刻需要提前预测多少个 token。我们预计相比 DFlash,这将带来 8% 到 14% 的速度提升。欢迎您就此项目提出问题、意见和反馈!
更多信息请查看项目树。
相似文章
@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
@dzhulgakov:来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路,将吞吐量提升 1.5 到 5 倍…
来自 DeepSeek AI 的 DSpark 集成了投机解码思路,在生产系统中实现 1.5 到 5 倍的吞吐量提升。本推文从基础开始讲解了 10 个关键思路。
@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入,现在正在前沿规模上运行——感谢…
DFlash,一个带有KV注入的块扩散起草器,现在正在前沿规模上运行,相比基线实现了高达4.3倍的吞吐量提升,集成了Modal和SGLang以用于Qwen 397B。
@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……
Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。
@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash
DFlash 是一个用于投机解码的轻量级块扩散模型,现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。