Kuma:将PyTorch模型编译为自包含的WebGPU可执行文件 [P]

Reddit r/MachineLearning 工具

摘要

Kuma是一个编译器/运行时,它将导出的PyTorch模型编译成自包含的WebGPU可执行文件,从而实现无需Python或服务器依赖的直接浏览器推理。

我一直在尝试一个编译器/运行时项目,但我不太确定这个主意是否可行,所以希望得到一些在部署系统方面有经验的人的反馈。这个想法是将导出的PyTorch模型编译成一个自包含的包,其中包含:图二进制权重、后端核(目前是WGSL)、运行时元数据。一个轻量级运行时加载该包并直接在浏览器中通过WebGPU执行。无需Python,无需服务器推理,也不依赖重型运行时。目前附带的演示只是神经视频表示,因为很容易测试,但实际动机是算子网络和科学机器学习,我喜欢分发单一可移植工件(artifact)的想法。仓库在这里:https://github.com/Slater-Victoroff/Kuma 我主要想寻求架构上的反馈。我正在纠结的一些问题:将后端核嵌入到工件中是否是个糟糕的主意?这解决了实际的部署问题还是只是在重造ONNX Runtime?是否有现成的系统采用了类似的方法值得我研究?如果今天让你设计一个部署格式,你会做哪些改变?我特别希望得到那些从事过ONNX、IREE、TVM、ExecuTorch、MLIR或类似编译器/运行时项目的朋友们的想法。
查看原文

相似文章

一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。

@hank_aibtc: 猛啊!在浏览器里跑 Gemma 4,堪比 ChatGPT?! 完全零服务器、零数据上传、离线使用、纯WebGPU本地推理! Xenova把 Fable 5写的27个自定义WebGPU内核 全部开源了: - Gemma 4 E2B(23亿参…

X AI KOLs Timeline

文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。