@SuJinYan123:仅在DeepSeek开源Qwen DSpark权重6小时后,OpenInfer就已经在RTX 5…上支持DSpark运行

X AI KOLs Timeline 工具

摘要

OpenInfer,一个纯粹的Rust+CUDA LLM推理引擎,快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持,实现了每个用户近500 tok/s,并扩展至约2.4K聚合tok/s,在非随机工作负载上优于DFlash。

仅在DeepSeek开源Qwen DSpark权重6小时后,OpenInfer就已经在RTX 5090上支持DSpark运行。 OpenInfer现已支持DSpark: https://github.com/openinfer-project/openinfer/pull/468… 在RTX 5090上,DSpark在c1时每个用户达到近500输出tok/s。在c8时,其扩展至约2.4K GPU聚合输出tok/s,同时仍为每个用户提供近300输出tok/s。 与DFlash相比,DSpark在所有非随机工作负载上速度更快,并且具有更健康的接受草稿长度分布。 一个有趣的细节:DSpark在随机合成工作负载上速度较慢,接受长度更短。我认为这实际上是个好兆头:随机文本是设计上的反例,可以说本就不应该被预测。在随机任务上较慢是符合预期的。 RTX 5090上的吞吐量权衡:DSpark在所有非随机工作负载上优于DFlash。 接受长度分布:与DFlash相比,DSpark将更多轮次转移到更长的接受草稿上。
查看原文
查看缓存全文

缓存时间: 2026/06/28 20:15

openinfer

纯Rust和CUDA的LLM推理引擎。无需PyTorch。无需模型框架运行时。

快速开始 · 模型 · API · 性能 · 架构

相似文章

DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]

Hacker News Top

DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。