Gemma 4 E2B 在浏览器中运行，使用Fable 5编写的WebGPU内核，速度达255 tok/s

Reddit r/LocalLLaMA 2026/06/17 17:06 新闻

gemma-4 webgpu browser-inference fable-5 high-performance in-browser

摘要

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行，使用Fable 5生成的内核，展示了高效的设备端推理。

暂无内容

查看原文

相似文章

X AI KOLs Timeline

文章介绍了Xenova开源了27个自定义WebGPU内核，使得Gemma 4模型可以在浏览器中完全离线、本地运行，性能达到255 tok/s，并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。

X AI KOLs Timeline

Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上，实现了预填充速度提升1.3倍、每瓦性能提升2.8倍，从而能够高效运行后台LLM任务。

X AI KOLs Timeline

Gemma 4 26B 在 RTX 4060 上运行，通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度，从而在消费级硬件上本地处理整个代码库。

Reddit r/LocalLLaMA

一项基准测试显示，使用 vLLM 搭配 DFlash 投机解码，在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s，相比基线实现了 2.56 倍的加速。

Reddit r/LocalLLaMA

作者展示了在仅使用 CPU 的系统上，通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型，在一台旧台式机上达到了每秒 7 个 token 的速度，这表明运行本地大语言模型推理可能并不需要强大的 GPU。