标签
DeepSeek提出DSpark技术,通过在Final RMSNorm后插入微型Transformer实现推测性解码,将大模型输出速度提升60%-85%。
DSpark 的进展更新:DFlash 骨干网络和马尔可夫头的训练已完成,可在 27B 上使用。接下来将训练置信度头以实现自适应草稿生成,预计比 DFlash 加速 8-14%。
DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。
OpenInfer,一个纯粹的Rust+CUDA LLM推理引擎,快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持,实现了每个用户近500 tok/s,并扩展至约2.4K聚合tok/s,在非随机工作负载上优于DFlash。
DeepSeek 使用了 open-perfectblend 数据集来训练他们的新 DSpark drafter;该数据集是《The Perfect Blend》论文的开源复现,提供了超过100万个数学、聊天和代码方面的多样化提示。
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。