Gemma 12b 低于10瓦 6.5pp 1.3tg
摘要
在Google Pixel 10 Pro上使用llama.cpp运行Gemma 12B模型,实现了每秒6.5个token的提示处理和每秒1.3个token的生成,功耗低于10瓦,展示了高效的设备端AI推理。
Google Pixel 10 Pro Termux Llamacpp 版本:9639 (ef8268fee) $ ./llama.cpp/build\_vulkan/bin/llama-cli -m storage/downloads/gemma-4-12b-it-UD-Q3\_K\_XL.gguf --model-draft storage/downloads/mtp-gemma-4-12b-it.gguf --temp 1.0 --top-p 0.95 --top-k 64 --spec-type draft-mtp --spec-draft-n-max 1 -c 32000 --mlock -b 512 -ctk q8\_0 -ctv q8\_0 \~10,000 提示深度 \[ 提示处理:6.5 t/s | 生成:1.3 t/s \]
相似文章
@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF,每秒 21 个 token…
Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。
介绍 Gemma 3 270M:超高效 AI 的紧凑型模型
Google 推出 Gemma 3 270M,这是一个拥有 2.7 亿参数的紧凑型模型,专为高效边缘设备 AI 设计,具有强大的指令遵循能力和极致的能效表现(在 Pixel 9 Pro 上进行 25 次对话仅消耗 0.75% 电量)。
运行 gemma-4-26B-A4B 不需要 GPU
作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。
Gemma 4 E2B 在浏览器中运行,使用Fable 5编写的WebGPU内核,速度达255 tok/s
Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行,使用Fable 5生成的内核,展示了高效的设备端推理。
在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s
Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。