@googlegemma:“代理内核优化是端侧推理的未来” @xenovacom 使用 Fable 5 编写内核,将……

X AI KOLs Timeline 工具

摘要

Xenova 使用 Fable 5 编写优化内核,在 M4 上的 WebGPU 中为 Gemma 4 实现了每秒 255 个 token 的速度,展示了用于端侧推理的代理内核优化。

“代理内核优化是端侧推理的未来” @xenovacom 使用 Fable 5 编写内核,将 Gemma 4 在 M4 上的 WebGPU 中推到了惊人的 255 tok/s。他分享了演示,你可以在浏览器中尝试!https://t.co/xPuh5OLGEt
查看原文
查看缓存全文

缓存时间: 2026/07/02 14:24

“代理式内核优化是设备端推理的未来”

@xenovacom 使用 Fable 5 编写内核,将 Gemma 4 在 M4 芯片的 WebGPU 上推至惊人的 255 tok/s。他分享了演示,你可以在浏览器中亲自试试!!https://t.co/xPuh5OLGEt

相似文章

@hank_aibtc: 猛啊!在浏览器里跑 Gemma 4,堪比 ChatGPT?! 完全零服务器、零数据上传、离线使用、纯WebGPU本地推理! Xenova把 Fable 5写的27个自定义WebGPU内核 全部开源了: - Gemma 4 E2B(23亿参…

X AI KOLs Timeline

文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。