@googlegemma:“代理内核优化是端侧推理的未来” @xenovacom 使用 Fable 5 编写内核,将……
摘要
Xenova 使用 Fable 5 编写优化内核,在 M4 上的 WebGPU 中为 Gemma 4 实现了每秒 255 个 token 的速度,展示了用于端侧推理的代理内核优化。
“代理内核优化是端侧推理的未来”
@xenovacom 使用 Fable 5 编写内核,将 Gemma 4 在 M4 上的 WebGPU 中推到了惊人的 255 tok/s。他分享了演示,你可以在浏览器中尝试!https://t.co/xPuh5OLGEt
查看缓存全文
缓存时间: 2026/07/02 14:24
“代理式内核优化是设备端推理的未来”
@xenovacom 使用 Fable 5 编写内核,将 Gemma 4 在 M4 芯片的 WebGPU 上推至惊人的 255 tok/s。他分享了演示,你可以在浏览器中亲自试试!!https://t.co/xPuh5OLGEt
相似文章
Gemma 4 E2B 在浏览器中运行,使用Fable 5编写的WebGPU内核,速度达255 tok/s
Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行,使用Fable 5生成的内核,展示了高效的设备端推理。
@googlegemma: Gemma 4 在手机上速度提升 3 倍!看看推测解码带来的不同!Multi-Token Predi…
Google 的 Gemma 4 通过推测解码和多 Token 预测,推理速度提升高达 3 倍,可实现高效的设备端部署。
@hank_aibtc: 猛啊!在浏览器里跑 Gemma 4,堪比 ChatGPT?! 完全零服务器、零数据上传、离线使用、纯WebGPU本地推理! Xenova把 Fable 5写的27个自定义WebGPU内核 全部开源了: - Gemma 4 E2B(23亿参…
文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。
@googlegemma: Gemma 4 E2B 在英特尔AI PC上运行速度超快,得益于OpenVINO上的LiteRT NPU支持!预填充性能提升1.3倍……
Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上,实现了预填充速度提升1.3倍、每瓦性能提升2.8倍,从而能够高效运行后台LLM任务。
@analogalok: gemma-4-12B-agentic-fable5-composer2.5 V2 已发布。对基于 Fable 5 推理训练的模型进行了智能体升级。运行…
Gemma 4 12B 的一个新微调版本,基于 Fable 5 的推理进行训练,在智能体编码基准测试中实现了显著提升(从15%到55%),并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。