标签
Xenova 使用 Fable 5 编写优化内核,在 M4 上的 WebGPU 中为 Gemma 4 实现了每秒 255 个 token 的速度,展示了用于端侧推理的代理内核优化。
一种模块化、高性能的 GraphRAG(基于图的检索增强生成)Rust 实现,支持 WebGPU 加速,并提供三种部署架构:仅服务器、仅 WASM(客户端)以及混合模式。
开源AI推理在移动端达到300 tok/s,借助WebGPU框架,Liquid AI的LFM2.5 230M模型在浏览器中达到1,400 tok/s。
Kuma是一个编译器/运行时,它将导出的PyTorch模型编译成自包含的WebGPU可执行文件,从而实现无需Python或服务器依赖的直接浏览器推理。
LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token,展示了高效的本地推理。
Eyal Toledano 使用纯 WebGPU/WGSL 构建了一个LLM推理引擎,可在浏览器和Node中无API密钥地本地运行,并正寻求同行评审。
Stable Diffusion XL (SDXL) 现在可以使用 WebGPU 在浏览器中本地运行,通过开源代码直接在设备上生成高质量 AI 图像。
这篇客座文章探讨了提议的跨源存储API,用于改进Transformers.js中AI模型资源的缓存,从而实现跨源的高效复用,同时保持浏览器内推理的隐私和完整性。
Simon Willison借助Claude Code,将Moebius 0.2B图像修复模型移植到浏览器中运行,使用了WebGPU和ONNX Runtime。最终的演示允许用户上传图片并通过修复移除物体。
Vercel团队显著优化了其首页性能,使用了诸如WebGPU着色器等技术,并仔细检查每一帧,他们计划分享所学的经验。
文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。
Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行,使用Fable 5生成的内核,展示了高效的设备端推理。
一位开发者构建了一个完全自包含的浏览器使用代理,完全在WASM/WebGPU中运行,零服务器成本,通过自然语言提示实现完整的网页控制。
介绍了一个名为 llm.istanbul 的 WebGPU LLM 工作台,可在浏览器中训练小模型、训练分词器并生成文本。无需服务器,完全本地运行。
提升了k-quants的预填充速度,并重构了llama.cpp WebGPU后端中Q4/Q5/Q8及k-quants的矩阵乘法。
PrismML 发布了 Bonsai Image 4B,一种 1-bit 二值和三值量化扩散模型,大小仅为 3GB(1-bit 版 0.93GB),相比同参数 FLUX.2 Klein 4B 的 16GB 压缩了 8 倍以上,并支持完全本地化浏览器运行。
一个深入探讨的视频,解释如何使用 Transformers.js 从 JavaScript 运行 AI 模型,涵盖张量、ONNX、量化、WebGPU/WASM 等。
OpenAI 开源了 Privacy Filter 模型(1.5B 参数,Apache 2.0),用于在浏览器本地通过 WebGPU 检测个人信息,无需上传数据,保护隐私。
PrismML 发布了 Bonsai Image 4B 模型的二值和三值量化版本,使得文本到图像生成可以仅用 3GB 大小通过 WebGPU 在浏览器中本地运行,采用 Apache-2.0 许可证。
本文重点介绍了 llama.cpp/ggml 中的全新 WebGPU 后端,它能够在浏览器中实现 GPU 加速的本地 AI 模型推理,由 Reese Levine 及其在 USCS 的团队在过去一年半中开发完成。