@no_stp_on_snek: 我的第二个且迟交的 Build Small 参赛作品。10天,1位开发者:从头构建的 Rust 引擎 + 自定义 GPU 内核 vs vLLM 在 N…
摘要
一位开发者从头构建了一个 Rust 推理引擎,带有自定义 GPU 内核,在 Nemotron-30B 解码上优于 vLLM,达到 75.7 vs 57 tok/s,提交至 Build Small 黑客马拉松。
查看缓存全文
缓存时间: 2026/06/16 01:09
我的第二个(也是迟交的)Build Small大赛作品。10天,1名开发者:一个从零构建的Rust引擎 + 定制GPU内核,在NVIDIA GB10上对比vLLM运行NVIDIA自家的Nemotron-30B。每个深度下的解码性能都超越vLLM(75.7 vs 57 tok/s)。预填充接近但还差一点。对于这样的时间线来说不错。
该让电脑休息一下了 😅
https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10… @huggingface @Gradio @nvidia #BuildSmall
FFAI vs vLLM on GB10 - 由 build-small-hackathon 创建的 Hugging Face 空间
来源:https://huggingface.co/spaces/build-small-hackathon/ffai-vs-vllm-gb10 正在从 HF Docker 仓库获取元数据…
相似文章
@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384
使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。
@charles_irl: 在忙碌中竟然错过了这个。很酷的演示!
一位开发者使用自建ML框架,基于Rust后端和CUDA内核,包含Flash Attention和AdamW,从零训练了一个1200万参数的LLM。
@binsquares:天哪,smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp,性能接近……
用户 @binsquares 报告称,smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时,可获得接近 90% 的主机性能。
I put together a Rust-native, CPU-only implementation of LFM2.5-8B-A1B
作者发布了一个纯Rust、纯CPU的LFM2.5-8B-A1B模型推理实现(4-bit Q4KM量化),解码速度约37 tokens/s,内存占用~7GB,旨在让LLM在廉价VPS或旧机器上可运行。该实现已开源并发布为cargo crate。
为Orange Pi AIPro(Ascend 310B)上的MiniCPM-V 4.6编写自定义C++引擎以绕过框架开销
为Orange Pi AIPro(Ascend 310B NPU)上的MiniCPM-V 4.6开发了自定义C++推理引擎,通过为matmul和causal-conv1d编写优化的AscendC内核,实现了相比原始框架2倍的加速,达到5.90 tokens/s。