Kuma：将PyTorch模型编译为自包含的WebGPU可执行文件 [P]

Reddit r/MachineLearning 2026/06/25 20:17 工具

pytorch webgpu compiler runtime deployment machine-learning browser

摘要

Kuma是一个编译器/运行时，它将导出的PyTorch模型编译成自包含的WebGPU可执行文件，从而实现无需Python或服务器依赖的直接浏览器推理。

我一直在尝试一个编译器/运行时项目，但我不太确定这个主意是否可行，所以希望得到一些在部署系统方面有经验的人的反馈。这个想法是将导出的PyTorch模型编译成一个自包含的包，其中包含：图二进制权重、后端核（目前是WGSL）、运行时元数据。一个轻量级运行时加载该包并直接在浏览器中通过WebGPU执行。无需Python，无需服务器推理，也不依赖重型运行时。目前附带的演示只是神经视频表示，因为很容易测试，但实际动机是算子网络和科学机器学习，我喜欢分发单一可移植工件（artifact）的想法。仓库在这里：https://github.com/Slater-Victoroff/Kuma 我主要想寻求架构上的反馈。我正在纠结的一些问题：将后端核嵌入到工件中是否是个糟糕的主意？这解决了实际的部署问题还是只是在重造ONNX Runtime？是否有现成的系统采用了类似的方法值得我研究？如果今天让你设计一个部署格式，你会做哪些改变？我特别希望得到那些从事过ONNX、IREE、TVM、ExecuTorch、MLIR或类似编译器/运行时项目的朋友们的想法。

查看原文

相似文章

一个可定制的编译器，用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核，在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。

@PyTorch：一个运行时，多种GPU架构，零厂商特定模型代码。在这篇博文中，TokenSpeed团队 @l…

X AI KOLs Following

TokenSpeed-Kernel是一个可移植、高性能的内核系统，用于LLM推理，实现零厂商特定模型代码，并支持多种GPU架构，在AMD MI355X上实现高达3.6倍的吞吐量提升。

LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行

Reddit r/LocalLLaMA

LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token，展示了高效的本地推理。

我构建了一个将Python重写为面向模型表示的编译器

Reddit r/LocalLLaMA

Vulpine是一个编译器，它将人类可读的Python代码转换为针对LLM优化的压缩宏表示，平均减少13.8%的token数，同时支持精确的结构重建。

@hank_aibtc: 猛啊！在浏览器里跑 Gemma 4，堪比 ChatGPT？！完全零服务器、零数据上传、离线使用、纯WebGPU本地推理！ Xenova把 Fable 5写的27个自定义WebGPU内核全部开源了： - Gemma 4 E2B（23亿参…

X AI KOLs Timeline

文章介绍了Xenova开源了27个自定义WebGPU内核，使得Gemma 4模型可以在浏览器中完全离线、本地运行，性能达到255 tok/s，并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。