dspark

#dspark

@karminski3: DeepSeek真的是性价比和技术双重斩杀线... 有同学看不懂DSpark是啥, 简单给大家写个小教程讲讲. 推测性解码(投机解码)这个技术是用来提升大模型输出速度的. 本质是让小模型给大模型接话, 大模型判断小模型说的对不对. 因为现…

X AI KOLs Timeline ↗ · 16小时前缓存

DeepSeek提出DSpark技术，通过在Final RMSNorm后插入微型Transformer实现推测性解码，将大模型输出速度提升60%-85%。

0 人收藏 0 人点赞

#dspark

X AI KOLs Timeline ↗ · 昨天缓存

DSpark 的进展更新：DFlash 骨干网络和马尔可夫头的训练已完成，可在 27B 上使用。接下来将训练置信度头以实现自适应草稿生成，预计比 DFlash 加速 8-14%。

0 人收藏 0 人点赞

#dspark

X AI KOLs Timeline ↗ · 昨天缓存

DeepSeek发布了DSpark，该系统让主模型快速生成一个句子，同时一个小型编辑器在验证前修正连贯性，将大语言模型系统工程推向新架构之外。

0 人收藏 0 人点赞

#dspark

X AI KOLs Timeline ↗ · 昨天缓存

OpenInfer，一个纯粹的Rust+CUDA LLM推理引擎，快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持，实现了每个用户近500 tok/s，并扩展至约2.4K聚合tok/s，在非随机工作负载上优于DFlash。

0 人收藏 0 人点赞

#dspark

X AI KOLs Following ↗ · 3天前缓存

DeepSeek 使用了 open-perfectblend 数据集来训练他们的新 DSpark drafter；该数据集是《The Perfect Blend》论文的开源复现，提供了超过100万个数学、聊天和代码方面的多样化提示。

0 人收藏 0 人点赞

#dspark

X AI KOLs Timeline ↗ · 3天前缓存

DeepSeek发布了DSpark，一种投机解码方法，可将V4 Flash和Pro的吞吐量提升51%至400%，同时还开源了DeepSpec代码库，用于训练和评估草稿模型。

0 人收藏 0 人点赞