browser-inference

#browser-inference

Gemma 4 E2B 在浏览器中运行，使用Fable 5编写的WebGPU内核，速度达255 tok/s

Reddit r/LocalLLaMA ↗ · 2026-06-17

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行，使用Fable 5生成的内核，展示了高效的设备端推理。

0 人收藏 0 人点赞

#browser-inference

Reddit r/MachineLearning ↗ · 2026-06-15

PrintGuard 2.0 是对基于 ShuffleNetV2 骨干网络和原型网络的少样本 FDM 故障检测器的重大重写，现在通过平台抽象层实现了单一 Python 引擎，可在 CPython 和浏览器中的 Pyodide 上无需修改运行，支持每台打印机的灵敏度调整和公平推理调度。

0 人收藏 0 人点赞

#browser-inference

Reddit r/LocalLLaMA ↗ · 2026-05-22

使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器，使用 DistilBERT 实现 F1 99%，优化至 ONNX int8（约 65 MB），可通过 Transformers.js v3 在浏览器中运行。

0 人收藏 0 人点赞

#browser-inference

X AI KOLs Following ↗ · 2026-05-22 缓存

本文重点介绍了 llama.cpp/ggml 中的全新 WebGPU 后端，它能够在浏览器中实现 GPU 加速的本地 AI 模型推理，由 Reese Levine 及其在 USCS 的团队在过去一年半中开发完成。

0 人收藏 0 人点赞

#browser-inference

X AI KOLs Following ↗ · 2026-05-17 缓存

一位开发者演示在浏览器中完全通过 WebGPU 运行 Qwen3.6-27B AI 模型，尽管速度并非最优。

0 人收藏 0 人点赞