Gemma 4 + LiteRT-LM在移动设备上：内存和性能远优于我的llama.cpp设置

Reddit r/LocalLLaMA 2026/05/15 13:02 工具

on-device-ai gemma-4 lite-rt-lm mobile-inference edge-ai llama-cpp performance-comparison

摘要

用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验，相较于之前的llama.cpp设置，内存占用显著降低（1.5-2 GB vs 4-5 GB），推理速度更快（2-4秒 vs 7-10秒），测试机型包括三星S25 Ultra和iPhone 13 Pro Max。

Hi r/LocalLLaMA - 我一直密切关注边缘AI生态系统，因为我认为这个领域潜力巨大，而且我坚信AI在日常生活任务中会变得更有用。在Gemma 4发布时，我已经在尝试本地AI，但即使是Gemma 3的小型变体，其内存占用也让我无法接受。我有一款三星旗舰机，能明显感觉到用户体验下降，系统时不时会杀死应用（更别提手机发热的问题了）。通过llama.cpp（带React Native桥接）运行Gemma 3，每次推理的内存占用大约在4-5GB，即使模型处于空闲状态也会占用约1GB内存，直到我释放它后内存才恢复正常。我绞尽脑汁寻找解决方案，然后看到了Gemma 4，通过AI Edge Gallery我注意到两点：1. CPU和GPU之间的速度差异巨大；2. 模型加载和响应非常迅速，我的手机运行良好，内存跳转几乎察觉不到。这时我才了解到LiteRTLM，以及它对边缘AI的高度优化。我成功让它跑了起来，当然也有一些小问题，我需要为Android和iOS编写一些原生模块（由于他们还没有提供Swift API，我只能用Objective-C！）。我还没有编写任何使用NPU的代码，但GPU和CPU推理效果不错。内存占用大约在1.5GB到2GB。我测试过的最老的手机是iPhone 13 Pro Max，运行良好。唯一不太满意的是，你必须释放模型才能回收内存，因为即使空闲时它也需要分配内存。虽然启动成本不算太高（在选定优选后端后），但还可以更快。我有一个力量追踪移动应用，目前是这样使用的： * 制定训练计划 * 在训练过程中检查动作表现并提供建议 * 训练结束后的跟进和反馈每次推理调用在GPU上需要2-4秒，CPU上再多1-2秒。我接下来计划： * 动作的图像识别（Gemma在这项功能上已被证明是一个有挑战性的模型，但通过一些好的提示词或许能实现） * 即时生成训练计划到目前为止，我对该模型和框架的体验非常棒，希望他们能继续发布更新和更小尺寸的模型！:) | 设置 | 设备 | 后端 | 模型 | 内存 | 延迟（完整推理） | |:-|:-|:-|:-|:-|:-| | llama.cpp RN桥接 | 三星S25 Ultra | CPU（由于某种原因无法让GPU工作） | Gemma 3 1B IT | 4–5 GB峰值 | ~7-10秒 | | LiteRT-LM | 三星S25 Ultra | GPU/CPU | Gemma 4 E2B IT | 1.5–2 GB | 2–4秒（CPU再加1-2秒） | | LiteRT-LM | iPhone 13 Pro Max | CPU（因Metal限制未测试GPU） | Gemma 4 E2B IT | 1.5–2 GB | 3–6秒 |

查看原文

相似文章

@googlegemma: Gemma 4 E2B 在英特尔AI PC上运行速度超快，得益于OpenVINO上的LiteRT NPU支持！预填充性能提升1.3倍……

X AI KOLs Timeline

Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上，实现了预填充速度提升1.3倍、每瓦性能提升2.8倍，从而能够高效运行后台LLM任务。

在MLX中使用turboquant（及自定义内核）运行Gemma4 26b MoE

Reddit r/LocalLLaMA

一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE，实现了比llama.cpp更快的提示处理和生成速度，且内存占用更低。实现方式包括本地部署说明。

@mylifcc: 我已经在mac上用上Gemma-4-12b了，技术栈是： llama.cpp + GGUF Q4_K_M + Metal 32K context，本地 OpenAI-compatible API 实测约 36 tok/s，常驻 RSS 约…

X AI KOLs Timeline

用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验，实现了约36 tok/s的本地推理速度和约10GB内存占用。

本地测试（更新后的）Gemma 4在OpenCode中的编码表现

Reddit r/LocalLLaMA

在M5 Pro上使用llama.cpp本地测试了更新后的Gemma 4，使用OpenCode进行编码任务时达到60 tokens/s；后端表现良好，但UI/UX不佳。

Gemma 4 QAT模型：为移动和笔记本电脑效率优化压缩

Hacker News Top

谷歌发布采用量化感知训练（QAT）优化的Gemma 4模型，旨在提升移动和笔记本电脑部署的效率，将E2B模型的内存占用降至1GB，同时保持质量。