Gemma 12b 低于10瓦 6.5pp 1.3tg

Reddit r/LocalLLaMA 2026/06/14 23:50 新闻

gemma llamacpp mobile-ai local-llm power-efficiency android on-device

摘要

在Google Pixel 10 Pro上使用llama.cpp运行Gemma 12B模型，实现了每秒6.5个token的提示处理和每秒1.3个token的生成，功耗低于10瓦，展示了高效的设备端AI推理。

Google Pixel 10 Pro Termux Llamacpp 版本：9639 (ef8268fee) $ ./llama.cpp/build\_vulkan/bin/llama-cli -m storage/downloads/gemma-4-12b-it-UD-Q3\_K\_XL.gguf --model-draft storage/downloads/mtp-gemma-4-12b-it.gguf --temp 1.0 --top-p 0.95 --top-k 64 --spec-type draft-mtp --spec-draft-n-max 1 -c 32000 --mlock -b 512 -ctk q8\_0 -ctv q8\_0 \~10,000 提示深度 \[ 提示处理：6.5 t/s | 生成：1.3 t/s \]

查看原文

Gemma 12b 低于10瓦 6.5pp 1.3tg

相似文章

@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF，每秒 21 个 token…

介绍 Gemma 3 270M：超高效 AI 的紧凑型模型

运行 gemma-4-26B-A4B 不需要 GPU

Gemma 4 E2B 在浏览器中运行，使用Fable 5编写的WebGPU内核，速度达255 tok/s

在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s

提交意见反馈