webgpu

标签

Cards List
#webgpu

@googlegemma:“代理内核优化是端侧推理的未来” @xenovacom 使用 Fable 5 编写内核,将……

X AI KOLs Timeline · 2天前 缓存

Xenova 使用 Fable 5 编写优化内核,在 M4 上的 WebGPU 中为 Gemma 4 实现了每秒 255 个 token 的速度,展示了用于端侧推理的代理内核优化。

0 人收藏 0 人点赞
#webgpu

@tom_doerr: 基于 Rust 的模块化 GraphRAG 实现,支持 WebGPU 加速。https://github.com/automataIA/graphrag-rs…

X AI KOLs Timeline · 6天前 缓存

一种模块化、高性能的 GraphRAG(基于图的检索增强生成)Rust 实现,支持 WebGPU 加速,并提供三种部署架构:仅服务器、仅 WASM(客户端)以及混合模式。

0 人收藏 0 人点赞
#webgpu

@victormustar: 移动端300 tok/s太疯狂了... 开源必须赢

X AI KOLs Following · 2026-06-26 缓存

开源AI推理在移动端达到300 tok/s,借助WebGPU框架,Liquid AI的LFM2.5 230M模型在浏览器中达到1,400 tok/s。

0 人收藏 0 人点赞
#webgpu

Kuma:将PyTorch模型编译为自包含的WebGPU可执行文件 [P]

Reddit r/MachineLearning · 2026-06-25

Kuma是一个编译器/运行时,它将导出的PyTorch模型编译成自包含的WebGPU可执行文件,从而实现无需Python或服务器依赖的直接浏览器推理。

0 人收藏 0 人点赞
#webgpu

LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行

Reddit r/LocalLLaMA · 2026-06-25

LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token,展示了高效的本地推理。

0 人收藏 0 人点赞
#webgpu

@yoheinakajima:谁想帮Eyal在这个方法上挑毛病——在浏览器中运行LLM推理?

X AI KOLs Following · 2026-06-25 缓存

Eyal Toledano 使用纯 WebGPU/WGSL 构建了一个LLM推理引擎,可在浏览器和Node中无API密钥地本地运行,并正寻求同行评审。

0 人收藏 0 人点赞
#webgpu

SDXL 在浏览器中本地运行于 WebGPU,开源

Reddit r/LocalLLaMA · 2026-06-24

Stable Diffusion XL (SDXL) 现在可以使用 WebGPU 在浏览器中本地运行,通过开源代码直接在设备上生成高质量 AI 图像。

0 人收藏 0 人点赞
#webgpu

在 Transformers.js 中尝试提议的跨源存储 API

Hugging Face Blog · 2026-06-23 缓存

这篇客座文章探讨了提议的跨源存储API,用于改进Transformers.js中AI模型资源的缓存,从而实现跨源的高效复用,同时保持浏览器内推理的隐私和完整性。

0 人收藏 0 人点赞
#webgpu

使用Claude Code将Moebius 0.2B图像修复模型移植到浏览器中运行

Simon Willison's Blog · 2026-06-22 缓存

Simon Willison借助Claude Code,将Moebius 0.2B图像修复模型移植到浏览器中运行,使用了WebGPU和ONNX Runtime。最终的演示允许用户上传图片并通过修复移除物体。

0 人收藏 0 人点赞
#webgpu

@rauchg:团队在http://vercel.com/home的性能上大显身手。'光照所及之处'都经过了Simba优化。绘制、布…

X AI KOLs Following · 2026-06-21 缓存

Vercel团队显著优化了其首页性能,使用了诸如WebGPU着色器等技术,并仔细检查每一帧,他们计划分享所学的经验。

0 人收藏 0 人点赞
#webgpu

@hank_aibtc: 猛啊!在浏览器里跑 Gemma 4,堪比 ChatGPT?! 完全零服务器、零数据上传、离线使用、纯WebGPU本地推理! Xenova把 Fable 5写的27个自定义WebGPU内核 全部开源了: - Gemma 4 E2B(23亿参…

X AI KOLs Timeline · 2026-06-18 缓存

文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。

0 人收藏 0 人点赞
#webgpu

Gemma 4 E2B 在浏览器中运行,使用Fable 5编写的WebGPU内核,速度达255 tok/s

Reddit r/LocalLLaMA · 2026-06-17

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行,使用Fable 5生成的内核,展示了高效的设备端推理。

0 人收藏 0 人点赞
#webgpu

[browser-use-wasm] 我制作了一个在WASM中运行的零成本浏览器使用代理

Reddit r/LocalLLaMA · 2026-06-12

一位开发者构建了一个完全自包含的浏览器使用代理,完全在WASM/WebGPU中运行,零服务器成本,通过自然语言提示实现完整的网页控制。

0 人收藏 0 人点赞
#webgpu

@PierceZhang34: 10秒训练一个小模型! LLM 训练神器:http://llm.istanbul 初体验 最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul,它号称 WebGPU LLM Workbench,意思是完全…

X AI KOLs Timeline · 2026-06-12 缓存

介绍了一个名为 llm.istanbul 的 WebGPU LLM 工作台,可在浏览器中训练小模型、训练分词器并生成文本。无需服务器,完全本地运行。

0 人收藏 0 人点赞
#webgpu

ggml-webgpu: 提升k-quants的预填充速度并重构Q4/Q5/Q8及k-quants的矩阵乘法 by yomaytk · Pull Request #24225 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-06-09 缓存

提升了k-quants的预填充速度,并重构了llama.cpp WebGPU后端中Q4/Q5/Q8及k-quants的矩阵乘法。

0 人收藏 0 人点赞
#webgpu

@hank_aibtc: WTF?图像生成彻底变天了! PrismML 刚刚放出 Bonsai Image 4B —1-bit 二值和三值量化扩散模型! - 模型才 ~3GB(1-bit 版甚至压到 0.93GB), 而同参数的 FLUX.2 Klein 4B 要…

X AI KOLs Timeline · 2026-05-29 缓存

PrismML 发布了 Bonsai Image 4B,一种 1-bit 二值和三值量化扩散模型,大小仅为 3GB(1-bit 版 0.93GB),相比同参数 FLUX.2 Klein 4B 的 16GB 压缩了 8 倍以上,并支持完全本地化浏览器运行。

0 人收藏 0 人点赞
#webgpu

@nicodotdev:关于 Transformers.js 你一直想了解的一切,都在一个视频中。我深入探讨了 AI 模型如何从…运行

X AI KOLs Following · 2026-05-27 缓存

一个深入探讨的视频,解释如何使用 Transformers.js 从 JavaScript 运行 AI 模型,涵盖张量、ONNX、量化、WebGPU/WASM 等。

0 人收藏 0 人点赞
#webgpu

@hank_aibtc: 卧槽 OpenAI 终于干了件人事!!! 2026 年第一个开源模型来了——Privacy Filter, Apache 2.0 直接放出! 1.5B 参数的 PII(个人信息) 检测神器, 专门把文本里的姓名、地址、电话、邮箱、身份证这…

X AI KOLs Timeline · 2026-05-27 缓存

OpenAI 开源了 Privacy Filter 模型(1.5B 参数,Apache 2.0),用于在浏览器本地通过 WebGPU 检测个人信息,无需上传数据,保护隐私。

0 人收藏 0 人点赞
#webgpu

PrismML 刚刚发布了二值和三值的 Bonsai Image 4B:一种 1比特/三值文本到图像扩散变换器,甚至可以在浏览器中通过 WebGPU 100% 本地运行。

Reddit r/LocalLLaMA · 2026-05-26

PrismML 发布了 Bonsai Image 4B 模型的二值和三值量化版本,使得文本到图像生成可以仅用 3GB 大小通过 WebGPU 在浏览器中本地运行,采用 Apache-2.0 许可证。

0 人收藏 0 人点赞
#webgpu

@ggerganov:突出展示 llama.cpp/ggml 中的新 WebGPU 后端 为在 llama.cpp 中实现完整 WebGPU 支持的工作始于…

X AI KOLs Following · 2026-05-22 缓存

本文重点介绍了 llama.cpp/ggml 中的全新 WebGPU 后端,它能够在浏览器中实现 GPU 加速的本地 AI 模型推理,由 Reese Levine 及其在 USCS 的团队在过去一年半中开发完成。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈