@no_stp_on_snek: 我的第二个且迟交的 Build Small 参赛作品。10天,1位开发者:从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 N…

X AI KOLs Following 工具

摘要

一位开发者从头构建了一个 Rust 推理引擎,带有自定义 GPU 内核,在 Nemotron-30B 解码上优于 vLLM,达到 75.7 vs 57 tok/s,提交至 Build Small 黑客马拉松。

我的第二个且迟交的 Build Small 参赛作品。10天,1位开发者:从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 NVIDIA 的 GB10 上,使用 NVIDIA 自家的 Nemotron-30B。解码在每个深度都击败 vLLM(75.7 vs 57 tok/s)。预填充接近但稍逊一筹。对于这个时间线来说不错。 是时候休息一下了 https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10… @huggingface @Gradio @nvidia #BuildSmall
查看原文
查看缓存全文

缓存时间: 2026/06/16 01:09

我的第二个(也是迟交的)Build Small大赛作品。10天,1名开发者:一个从零构建的Rust引擎 + 定制GPU内核,在NVIDIA GB10上对比vLLM运行NVIDIA自家的Nemotron-30B。每个深度下的解码性能都超越vLLM(75.7 vs 57 tok/s)。预填充接近但还差一点。对于这样的时间线来说不错。

该让电脑休息一下了 😅

https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10… @huggingface @Gradio @nvidia #BuildSmall


FFAI vs vLLM on GB10 - 由 build-small-hackathon 创建的 Hugging Face 空间

来源:https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10 正在从 HF Docker 仓库获取元数据…

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。