@no_stp_on_snek: 我的第二个且迟交的 Build Small 参赛作品。10天，1位开发者：从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 N…

X AI KOLs Following 2026/06/15 23:47 工具

rust gpu-kernels inference-engine benchmark open-source build-small hackathon

摘要

一位开发者从头构建了一个 Rust 推理引擎，带有自定义 GPU 内核，在 Nemotron-30B 解码上优于 vLLM，达到 75.7 vs 57 tok/s，提交至 Build Small 黑客马拉松。

我的第二个且迟交的 Build Small 参赛作品。10天，1位开发者：从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 NVIDIA 的 GB10 上，使用 NVIDIA 自家的 Nemotron-30B。解码在每个深度都击败 vLLM（75.7 vs 57 tok/s）。预填充接近但稍逊一筹。对于这个时间线来说不错。是时候休息一下了 https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10… @huggingface @Gradio @nvidia #BuildSmall

查看原文

查看缓存全文

缓存时间: 2026/06/16 01:09

我的第二个（也是迟交的）Build Small大赛作品。10天，1名开发者：一个从零构建的Rust引擎 + 定制GPU内核，在NVIDIA GB10上对比vLLM运行NVIDIA自家的Nemotron-30B。每个深度下的解码性能都超越vLLM（75.7 vs 57 tok/s）。预填充接近但还差一点。对于这样的时间线来说不错。

该让电脑休息一下了 😅

https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10… @huggingface @Gradio @nvidia #BuildSmall

FFAI vs vLLM on GB10 - 由 build-small-hackathon 创建的 Hugging Face 空间

来源：https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10 正在从 HF Docker 仓库获取元数据…

@no_stp_on_snek: 我的第二个且迟交的 Build Small 参赛作品。10天，1位开发者：从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 N…

FFAI vs vLLM on GB10 - 由 build-small-hackathon 创建的 Hugging Face 空间

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

@charles_irl: 在忙碌中竟然错过了这个。很酷的演示！

@binsquares：天哪，smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp，性能接近……

I put together a Rust-native, CPU-only implementation of LFM2.5-8B-A1B

为Orange Pi AIPro（Ascend 310B）上的MiniCPM-V 4.6编写自定义C++引擎以绕过框架开销

提交意见反馈