Gemma 4 E2B 在浏览器中运行,使用Fable 5编写的WebGPU内核,速度达255 tok/s

Reddit r/LocalLLaMA 新闻

摘要

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行,使用Fable 5生成的内核,展示了高效的设备端推理。

暂无内容
查看原文

相似文章

@hank_aibtc: 猛啊!在浏览器里跑 Gemma 4,堪比 ChatGPT?! 完全零服务器、零数据上传、离线使用、纯WebGPU本地推理! Xenova把 Fable 5写的27个自定义WebGPU内核 全部开源了: - Gemma 4 E2B(23亿参…

X AI KOLs Timeline

文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA

作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。