webgpu

#webgpu

@googlegemma：“代理内核优化是端侧推理的未来” @xenovacom 使用 Fable 5 编写内核，将……

X AI KOLs Timeline ↗ · 2天前缓存

Xenova 使用 Fable 5 编写优化内核，在 M4 上的 WebGPU 中为 Gemma 4 实现了每秒 255 个 token 的速度，展示了用于端侧推理的代理内核优化。

0 人收藏 0 人点赞

#webgpu

@tom_doerr: 基于 Rust 的模块化 GraphRAG 实现，支持 WebGPU 加速。https://github.com/automataIA/graphrag-rs…

X AI KOLs Timeline ↗ · 6天前缓存

一种模块化、高性能的 GraphRAG（基于图的检索增强生成）Rust 实现，支持 WebGPU 加速，并提供三种部署架构：仅服务器、仅 WASM（客户端）以及混合模式。

0 人收藏 0 人点赞

#webgpu

@victormustar: 移动端300 tok/s太疯狂了... 开源必须赢

X AI KOLs Following ↗ · 2026-06-26 缓存

开源AI推理在移动端达到300 tok/s，借助WebGPU框架，Liquid AI的LFM2.5 230M模型在浏览器中达到1,400 tok/s。

0 人收藏 0 人点赞

#webgpu

Kuma：将PyTorch模型编译为自包含的WebGPU可执行文件 [P]

Reddit r/MachineLearning ↗ · 2026-06-25

Kuma是一个编译器/运行时，它将导出的PyTorch模型编译成自包含的WebGPU可执行文件，从而实现无需Python或服务器依赖的直接浏览器推理。

0 人收藏 0 人点赞

#webgpu

LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行

Reddit r/LocalLLaMA ↗ · 2026-06-25

LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token，展示了高效的本地推理。

0 人收藏 0 人点赞

#webgpu

@yoheinakajima：谁想帮Eyal在这个方法上挑毛病——在浏览器中运行LLM推理？

X AI KOLs Following ↗ · 2026-06-25 缓存

Eyal Toledano 使用纯 WebGPU/WGSL 构建了一个LLM推理引擎，可在浏览器和Node中无API密钥地本地运行，并正寻求同行评审。

0 人收藏 0 人点赞

#webgpu

SDXL 在浏览器中本地运行于 WebGPU，开源

Reddit r/LocalLLaMA ↗ · 2026-06-24

Stable Diffusion XL (SDXL) 现在可以使用 WebGPU 在浏览器中本地运行，通过开源代码直接在设备上生成高质量 AI 图像。

0 人收藏 0 人点赞

#webgpu

在 Transformers.js 中尝试提议的跨源存储 API

Hugging Face Blog ↗ · 2026-06-23 缓存

这篇客座文章探讨了提议的跨源存储API，用于改进Transformers.js中AI模型资源的缓存，从而实现跨源的高效复用，同时保持浏览器内推理的隐私和完整性。

0 人收藏 0 人点赞

#webgpu

使用Claude Code将Moebius 0.2B图像修复模型移植到浏览器中运行

Simon Willison's Blog ↗ · 2026-06-22 缓存

Simon Willison借助Claude Code，将Moebius 0.2B图像修复模型移植到浏览器中运行，使用了WebGPU和ONNX Runtime。最终的演示允许用户上传图片并通过修复移除物体。

0 人收藏 0 人点赞

#webgpu

@rauchg：团队在http://vercel.com/home的性能上大显身手。'光照所及之处'都经过了Simba优化。绘制、布…

X AI KOLs Following ↗ · 2026-06-21 缓存

Vercel团队显著优化了其首页性能，使用了诸如WebGPU着色器等技术，并仔细检查每一帧，他们计划分享所学的经验。

0 人收藏 0 人点赞

#webgpu

@hank_aibtc: 猛啊！在浏览器里跑 Gemma 4，堪比 ChatGPT？！完全零服务器、零数据上传、离线使用、纯WebGPU本地推理！ Xenova把 Fable 5写的27个自定义WebGPU内核全部开源了： - Gemma 4 E2B（23亿参…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

文章介绍了Xenova开源了27个自定义WebGPU内核，使得Gemma 4模型可以在浏览器中完全离线、本地运行，性能达到255 tok/s，并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。

0 人收藏 0 人点赞

#webgpu

Gemma 4 E2B 在浏览器中运行，使用Fable 5编写的WebGPU内核，速度达255 tok/s

Reddit r/LocalLLaMA ↗ · 2026-06-17

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行，使用Fable 5生成的内核，展示了高效的设备端推理。

0 人收藏 0 人点赞

#webgpu

[browser-use-wasm] 我制作了一个在WASM中运行的零成本浏览器使用代理

Reddit r/LocalLLaMA ↗ · 2026-06-12

一位开发者构建了一个完全自包含的浏览器使用代理，完全在WASM/WebGPU中运行，零服务器成本，通过自然语言提示实现完整的网页控制。

0 人收藏 0 人点赞

#webgpu

@PierceZhang34: 10秒训练一个小模型! LLM 训练神器：http://llm.istanbul 初体验最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul，它号称 WebGPU LLM Workbench，意思是完全…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

介绍了一个名为 llm.istanbul 的 WebGPU LLM 工作台，可在浏览器中训练小模型、训练分词器并生成文本。无需服务器，完全本地运行。

0 人收藏 0 人点赞

#webgpu

ggml-webgpu: 提升k-quants的预填充速度并重构Q4/Q5/Q8及k-quants的矩阵乘法 by yomaytk · Pull Request #24225 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-09 缓存

提升了k-quants的预填充速度，并重构了llama.cpp WebGPU后端中Q4/Q5/Q8及k-quants的矩阵乘法。

0 人收藏 0 人点赞

#webgpu

@hank_aibtc: WTF？图像生成彻底变天了！ PrismML 刚刚放出 Bonsai Image 4B —1-bit 二值和三值量化扩散模型！ - 模型才 ~3GB（1-bit 版甚至压到 0.93GB），而同参数的 FLUX.2 Klein 4B 要…

X AI KOLs Timeline ↗ · 2026-05-29 缓存

PrismML 发布了 Bonsai Image 4B，一种 1-bit 二值和三值量化扩散模型，大小仅为 3GB（1-bit 版 0.93GB），相比同参数 FLUX.2 Klein 4B 的 16GB 压缩了 8 倍以上，并支持完全本地化浏览器运行。

0 人收藏 0 人点赞

#webgpu

@nicodotdev：关于 Transformers.js 你一直想了解的一切，都在一个视频中。我深入探讨了 AI 模型如何从…运行

X AI KOLs Following ↗ · 2026-05-27 缓存

一个深入探讨的视频，解释如何使用 Transformers.js 从 JavaScript 运行 AI 模型，涵盖张量、ONNX、量化、WebGPU/WASM 等。

0 人收藏 0 人点赞

#webgpu

@hank_aibtc: 卧槽 OpenAI 终于干了件人事！！！ 2026 年第一个开源模型来了——Privacy Filter， Apache 2.0 直接放出！ 1.5B 参数的 PII（个人信息）检测神器，专门把文本里的姓名、地址、电话、邮箱、身份证这…

X AI KOLs Timeline ↗ · 2026-05-27 缓存

OpenAI 开源了 Privacy Filter 模型（1.5B 参数，Apache 2.0），用于在浏览器本地通过 WebGPU 检测个人信息，无需上传数据，保护隐私。

0 人收藏 0 人点赞

#webgpu

PrismML 刚刚发布了二值和三值的 Bonsai Image 4B：一种 1比特/三值文本到图像扩散变换器，甚至可以在浏览器中通过 WebGPU 100% 本地运行。

Reddit r/LocalLLaMA ↗ · 2026-05-26

PrismML 发布了 Bonsai Image 4B 模型的二值和三值量化版本，使得文本到图像生成可以仅用 3GB 大小通过 WebGPU 在浏览器中本地运行，采用 Apache-2.0 许可证。

0 人收藏 0 人点赞

#webgpu

@ggerganov：突出展示 llama.cpp/ggml 中的新 WebGPU 后端为在 llama.cpp 中实现完整 WebGPU 支持的工作始于…

X AI KOLs Following ↗ · 2026-05-22 缓存

本文重点介绍了 llama.cpp/ggml 中的全新 WebGPU 后端，它能够在浏览器中实现 GPU 加速的本地 AI 模型推理，由 Reese Levine 及其在 USCS 的团队在过去一年半中开发完成。

0 人收藏 0 人点赞

webgpu

提交意见反馈