直接在PC上运行Chrome的小型Gemma4(即Gemini Nano),无需GPU

Reddit r/LocalLLaMA 工具

摘要

一位开发者创建了一个名为Dobby的Chrome扩展程序,可以在PC上本地运行谷歌的Gemma4(Gemini Nano),无需GPU,只需Chrome和16GB内存。该扩展提供了一个简单的界面,用于与模型交互,完成拼写检查或摘要等任务。

大家都记得本月初悄悄下载的Gemini Nano吧?如果你和它对话,它会高兴地告诉你它是Gemma。由于一些朋友对此感兴趣,但又不愿意像通过锁眼对可怜的家养小精灵说话那样,通过开发者工具来与它交流,所以我花了5分钟编写了一个vibe编码的扩展来运行它。无需任何额外要求,只需要Google Chrome、16GB内存和一点磁盘空间。不需要llama.cpp、vllm等,也不用调整(我知道,这不好玩)。运行相当快且流畅,在我的笔记本上感觉大约20+t/s,没有GPU。不过我没有实际的速度数据。一切由Chrome处理。每个会话可用9216个token,由Chrome设定。模型完全在Chrome本地运行。用途……嗯,拼写检查,这样谷歌就不会知道我拼写有多差了?给长篇网络帖子做个快速摘要?只是好玩?总之,这里是一键添加扩展的链接:https://chromewebstore.google.com/detail/dobby/ehinjcinljpggpokocmkbcaedpjdbbbe?authuser=0&hl=en-GB&pli=1 或者如果你想稍微折腾一下,并且不想叫它Dobby(Chrome的家养小精灵),这是仓库:https://github.com/herryupmay/Dobby
查看原文

相似文章

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA

作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。

@hank_aibtc: 猛啊!在浏览器里跑 Gemma 4,堪比 ChatGPT?! 完全零服务器、零数据上传、离线使用、纯WebGPU本地推理! Xenova把 Fable 5写的27个自定义WebGPU内核 全部开源了: - Gemma 4 E2B(23亿参…

X AI KOLs Timeline

文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。