@SuJinYan123：仅在DeepSeek开源Qwen DSpark权重6小时后，OpenInfer就已经在RTX 5…上支持DSpark运行

X AI KOLs Timeline 2026/06/28 18:08 工具

open-source deepseek dspark speculative-decoding inference-engine rust cuda

摘要

OpenInfer，一个纯粹的Rust+CUDA LLM推理引擎，快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持，实现了每个用户近500 tok/s，并扩展至约2.4K聚合tok/s，在非随机工作负载上优于DFlash。

仅在DeepSeek开源Qwen DSpark权重6小时后，OpenInfer就已经在RTX 5090上支持DSpark运行。 OpenInfer现已支持DSpark： https://github.com/openinfer-project/openinfer/pull/468… 在RTX 5090上，DSpark在c1时每个用户达到近500输出tok/s。在c8时，其扩展至约2.4K GPU聚合输出tok/s，同时仍为每个用户提供近300输出tok/s。与DFlash相比，DSpark在所有非随机工作负载上速度更快，并且具有更健康的接受草稿长度分布。一个有趣的细节：DSpark在随机合成工作负载上速度较慢，接受长度更短。我认为这实际上是个好兆头：随机文本是设计上的反例，可以说本就不应该被预测。在随机任务上较慢是符合预期的。 RTX 5090上的吞吐量权衡：DSpark在所有非随机工作负载上优于DFlash。接受长度分布：与DFlash相比，DSpark将更多轮次转移到更长的接受草稿上。

查看原文

查看缓存全文

缓存时间: 2026/06/28 20:15

openinfer

纯Rust和CUDA的LLM推理引擎。无需PyTorch。无需模型框架运行时。

快速开始 · 模型 · API · 性能 · 架构

相似文章

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

X AI KOLs Timeline

DeepSeek发布了DSpark，一种投机解码方法，可将V4 Flash和Pro的吞吐量提升51%至400%，同时还开源了DeepSpec代码库，用于训练和评估草稿模型。

@dzhulgakov：来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路，将吞吐量提升 1.5 到 5 倍…

X AI KOLs Following

来自 DeepSeek AI 的 DSpark 集成了投机解码思路，在生产系统中实现 1.5 到 5 倍的吞吐量提升。本推文从基础开始讲解了 10 个关键思路。

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

Reddit r/LocalLLaMA

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash（总计284B，激活13B），通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

DeepSeek 开源推理优化，生成速度提升 60–85% [pdf]

Hacker News Top

DeepSeek 开源了 DeepSpec，这是一个用于训练和评估推测解码草稿模型的全栈代码库，可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本，支持多种草稿模型算法（DSpark、DFlash、Eagle3）。

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

X AI KOLs Following

antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本，使该模型能够在单张 GPU（如 RTX Pro 6000）以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face，并附有 DS4 推理引擎的使用说明。

提交意见反馈