@googlegemma：“代理内核优化是端侧推理的未来” @xenovacom 使用 Fable 5 编写内核，将……

X AI KOLs Timeline 2026/07/01 20:26 工具

on-device-inference kernel-optimization webgpu gemma-4 llm-inference agentic-kernel

摘要

Xenova 使用 Fable 5 编写优化内核，在 M4 上的 WebGPU 中为 Gemma 4 实现了每秒 255 个 token 的速度，展示了用于端侧推理的代理内核优化。

“代理内核优化是端侧推理的未来” @xenovacom 使用 Fable 5 编写内核，将 Gemma 4 在 M4 上的 WebGPU 中推到了惊人的 255 tok/s。他分享了演示，你可以在浏览器中尝试！https://t.co/xPuh5OLGEt

查看原文

查看缓存全文

缓存时间: 2026/07/02 14:24

“代理式内核优化是设备端推理的未来”

@xenovacom 使用 Fable 5 编写内核，将 Gemma 4 在 M4 芯片的 WebGPU 上推至惊人的 255 tok/s。他分享了演示，你可以在浏览器中亲自试试！！https://t.co/xPuh5OLGEt

相似文章

Reddit r/LocalLLaMA

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行，使用Fable 5生成的内核，展示了高效的设备端推理。

X AI KOLs Timeline

Google 的 Gemma 4 通过推测解码和多 Token 预测，推理速度提升高达 3 倍，可实现高效的设备端部署。

X AI KOLs Timeline

文章介绍了Xenova开源了27个自定义WebGPU内核，使得Gemma 4模型可以在浏览器中完全离线、本地运行，性能达到255 tok/s，并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。

X AI KOLs Timeline

Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上，实现了预填充速度提升1.3倍、每瓦性能提升2.8倍，从而能够高效运行后台LLM任务。

X AI KOLs Timeline

Gemma 4 12B 的一个新微调版本，基于 Fable 5 的推理进行训练，在智能体编码基准测试中实现了显著提升（从15%到55%），并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。