Gemma 4 + LiteRT-LM在移动设备上:内存和性能远优于我的llama.cpp设置
摘要
用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验,相较于之前的llama.cpp设置,内存占用显著降低(1.5-2 GB vs 4-5 GB),推理速度更快(2-4秒 vs 7-10秒),测试机型包括三星S25 Ultra和iPhone 13 Pro Max。
Hi r/LocalLLaMA - 我一直密切关注边缘AI生态系统,因为我认为这个领域潜力巨大,而且我坚信AI在日常生活任务中会变得更有用。在Gemma 4发布时,我已经在尝试本地AI,但即使是Gemma 3的小型变体,其内存占用也让我无法接受。我有一款三星旗舰机,能明显感觉到用户体验下降,系统时不时会杀死应用(更别提手机发热的问题了)。通过llama.cpp(带React Native桥接)运行Gemma 3,每次推理的内存占用大约在4-5GB,即使模型处于空闲状态也会占用约1GB内存,直到我释放它后内存才恢复正常。我绞尽脑汁寻找解决方案,然后看到了Gemma 4,通过AI Edge Gallery我注意到两点:1. CPU和GPU之间的速度差异巨大;2. 模型加载和响应非常迅速,我的手机运行良好,内存跳转几乎察觉不到。这时我才了解到LiteRTLM,以及它对边缘AI的高度优化。我成功让它跑了起来,当然也有一些小问题,我需要为Android和iOS编写一些原生模块(由于他们还没有提供Swift API,我只能用Objective-C!)。我还没有编写任何使用NPU的代码,但GPU和CPU推理效果不错。内存占用大约在1.5GB到2GB。我测试过的最老的手机是iPhone 13 Pro Max,运行良好。唯一不太满意的是,你必须释放模型才能回收内存,因为即使空闲时它也需要分配内存。虽然启动成本不算太高(在选定优选后端后),但还可以更快。我有一个力量追踪移动应用,目前是这样使用的:
* 制定训练计划
* 在训练过程中检查动作表现并提供建议
* 训练结束后的跟进和反馈
每次推理调用在GPU上需要2-4秒,CPU上再多1-2秒。我接下来计划:
* 动作的图像识别(Gemma在这项功能上已被证明是一个有挑战性的模型,但通过一些好的提示词或许能实现)
* 即时生成训练计划
到目前为止,我对该模型和框架的体验非常棒,希望他们能继续发布更新和更小尺寸的模型!:)
| 设置 | 设备 | 后端 | 模型 | 内存 | 延迟(完整推理) |
|:-|:-|:-|:-|:-|:-|
| llama.cpp RN桥接 | 三星S25 Ultra | CPU(由于某种原因无法让GPU工作) | Gemma 3 1B IT | 4–5 GB峰值 | ~7-10秒 |
| LiteRT-LM | 三星S25 Ultra | GPU/CPU | Gemma 4 E2B IT | 1.5–2 GB | 2–4秒(CPU再加1-2秒) |
| LiteRT-LM | iPhone 13 Pro Max | CPU(因Metal限制未测试GPU) | Gemma 4 E2B IT | 1.5–2 GB | 3–6秒 |
相似文章
在MLX中使用turboquant(及自定义内核)运行Gemma4 26b MoE
一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE,实现了比llama.cpp更快的提示处理和生成速度,且内存占用更低。实现方式包括本地部署说明。
@mylifcc: 我已经在mac上用上Gemma-4-12b了,技术栈是: llama.cpp + GGUF Q4_K_M + Metal 32K context,本地 OpenAI-compatible API 实测约 36 tok/s,常驻 RSS 约…
用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验,实现了约36 tok/s的本地推理速度和约10GB内存占用。
Gemma 4 QAT模型:为移动和笔记本电脑效率优化压缩
谷歌发布采用量化感知训练(QAT)优化的Gemma 4模型,旨在提升移动和笔记本电脑部署的效率,将E2B模型的内存占用降至1GB,同时保持质量。
@_philschmid: 更多 Gemma 4!新的 QAT Gemma 4 检查点,性能相似,内存使用减少约 4 倍!它附带了一种新的移动…
新的 QAT Gemma 4 检查点提供相似的性能,内存使用减少约 4 倍,通过一种新的移动端量化格式,使 Gemma 4 E2B 的内存占用仅需 1GB。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。