@Hikari_07_jp: 进展报告！DFlash 骨干网络和马尔可夫头的训练已完成，使得 DSpark 可在 27B 上使用。我们将…

X AI KOLs Timeline 2026/06/28 23:25 模型

speculative-decoding dflash dspark training confidence-head backbone

摘要

DSpark 的进展更新：DFlash 骨干网络和马尔可夫头的训练已完成，可在 27B 上使用。接下来将训练置信度头以实现自适应草稿生成，预计比 DFlash 加速 8-14%。

进展报告！ DFlash 骨干网络和马尔可夫头的训练已完成，使得 DSpark 可在 27B 上使用。我们现在将训练置信度头。置信度头是一个关键组件，它决定在任何给定时刻应该提前生成多少个 token。我们预计这将比 DFlash 提速 8-14%。欢迎您就该项目提出问题、发表意见和反馈！参见树结构以获取关于该项目的更多信息。

查看原文

查看缓存全文

缓存时间: 2026/06/29 06:23

进展报告！

DFlash 的骨干网络和马尔可夫头的训练已完成，使得 DSpark 能够在 27B 参数规模上使用。接下来我们将训练置信度头。

置信度头是一个关键组件，用于决定在任意时刻需要提前预测多少个 token。我们预计相比 DFlash，这将带来 8% 到 14% 的速度提升。欢迎您就此项目提出问题、意见和反馈！

更多信息请查看项目树。

相似文章

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

X AI KOLs Timeline

DeepSeek发布了DSpark，一种投机解码方法，可将V4 Flash和Pro的吞吐量提升51%至400%，同时还开源了DeepSpec代码库，用于训练和评估草稿模型。

@dzhulgakov：来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路，将吞吐量提升 1.5 到 5 倍…

X AI KOLs Following

来自 DeepSeek AI 的 DSpark 集成了投机解码思路，在生产系统中实现 1.5 到 5 倍的吞吐量提升。本推文从基础开始讲解了 10 个关键思路。

@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入，现在正在前沿规模上运行——感谢…

X AI KOLs Following

DFlash，一个带有KV注入的块扩散起草器，现在正在前沿规模上运行，相比基线实现了高达4.3倍的吞吐量提升，集成了Modal和SGLang以用于Qwen 397B。

@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行，目前为私有分支。12 tokens/sec，此系统的内存带宽受限……

X AI KOLs Timeline

Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试，指出生成速度为 12 tokens/sec，预填充性能较高，并计划在该代码库成熟后将其合并。

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

X AI KOLs Following

DFlash 是一个用于投机解码的轻量级块扩散模型，现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。

相似文章

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

@dzhulgakov：来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路，将吞吐量提升 1.5 到 5 倍…

@zhijianliu_: 这正是 DFlash 的用武之地。我们的块扩散起草器 + KV注入，现在正在前沿规模上运行——感谢…

@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行，目前为私有分支。12 tokens/sec，此系统的内存带宽受限……

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

提交意见反馈