dspark

标签

Cards List
#dspark

@karminski3: DeepSeek真的是性价比和技术双重斩杀线... 有同学看不懂DSpark是啥, 简单给大家写个小教程讲讲. 推测性解码(投机解码)这个技术是用来提升大模型输出速度的. 本质是让小模型给大模型接话, 大模型判断小模型说的对不对. 因为现…

X AI KOLs Timeline · 16小时前 缓存

DeepSeek提出DSpark技术,通过在Final RMSNorm后插入微型Transformer实现推测性解码,将大模型输出速度提升60%-85%。

0 人收藏 0 人点赞
#dspark

@Hikari_07_jp: 进展报告!DFlash 骨干网络和马尔可夫头的训练已完成,使得 DSpark 可在 27B 上使用。我们将…

X AI KOLs Timeline · 昨天 缓存

DSpark 的进展更新:DFlash 骨干网络和马尔可夫头的训练已完成,可在 27B 上使用。接下来将训练置信度头以实现自适应草稿生成,预计比 DFlash 加速 8-14%。

0 人收藏 0 人点赞
#dspark

@Michaelzsguo: 这是关于DeepSeek最新创新DSpark的最佳解读:可以把DSpark想象成:主模型快速构思句子,然后一个小型“编辑器”迅速修正连贯性...

X AI KOLs Timeline · 昨天 缓存

DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。

0 人收藏 0 人点赞
#dspark

@SuJinYan123:仅在DeepSeek开源Qwen DSpark权重6小时后,OpenInfer就已经在RTX 5…上支持DSpark运行

X AI KOLs Timeline · 昨天 缓存

OpenInfer,一个纯粹的Rust+CUDA LLM推理引擎,快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持,实现了每个用户近500 tok/s,并扩展至约2.4K聚合tok/s,在非随机工作负载上优于DFlash。

0 人收藏 0 人点赞
#dspark

@maximelabonne: 有趣的惊喜:DeepSeek 使用了我的 open-perfectblend 数据集来训练他们的新 DSpark drafter 是时候再次推广它了!它…

X AI KOLs Following · 3天前 缓存

DeepSeek 使用了 open-perfectblend 数据集来训练他们的新 DSpark drafter;该数据集是《The Perfect Blend》论文的开源复现,提供了超过100万个数学、聊天和代码方面的多样化提示。

0 人收藏 0 人点赞
#dspark

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…

X AI KOLs Timeline · 3天前 缓存

DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈