Gemma 4 + LiteRT-LM在移动设备上:内存和性能远优于我的llama.cpp设置
摘要
用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验,相较于之前的llama.cpp设置,内存占用显著降低(1.5-2 GB vs 4-5 GB),推理速度更快(2-4秒 vs 7-10秒),测试机型包括三星S25 Ultra和iPhone 13 Pro Max。
Hi r/LocalLLaMA - 我一直密切关注边缘AI生态系统,因为我认为这个领域潜力巨大,而且我坚信AI在日常生活任务中会变得更有用。在Gemma 4发布时,我已经在尝试本地AI,但即使是Gemma 3的小型变体,其内存占用也让我无法接受。我有一款三星旗舰机,能明显感觉到用户体验下降,系统时不时会杀死应用(更别提手机发热的问题了)。通过llama.cpp(带React Native桥接)运行Gemma 3,每次推理的内存占用大约在4-5GB,即使模型处于空闲状态也会占用约1GB内存,直到我释放它后内存才恢复正常。我绞尽脑汁寻找解决方案,然后看到了Gemma 4,通过AI Edge Gallery我注意到两点:1. CPU和GPU之间的速度差异巨大;2. 模型加载和响应非常迅速,我的手机运行良好,内存跳转几乎察觉不到。这时我才了解到LiteRTLM,以及它对边缘AI的高度优化。我成功让它跑了起来,当然也有一些小问题,我需要为Android和iOS编写一些原生模块(由于他们还没有提供Swift API,我只能用Objective-C!)。我还没有编写任何使用NPU的代码,但GPU和CPU推理效果不错。内存占用大约在1.5GB到2GB。我测试过的最老的手机是iPhone 13 Pro Max,运行良好。唯一不太满意的是,你必须释放模型才能回收内存,因为即使空闲时它也需要分配内存。虽然启动成本不算太高(在选定优选后端后),但还可以更快。我有一个力量追踪移动应用,目前是这样使用的:
* 制定训练计划
* 在训练过程中检查动作表现并提供建议
* 训练结束后的跟进和反馈
每次推理调用在GPU上需要2-4秒,CPU上再多1-2秒。我接下来计划:
* 动作的图像识别(Gemma在这项功能上已被证明是一个有挑战性的模型,但通过一些好的提示词或许能实现)
* 即时生成训练计划
到目前为止,我对该模型和框架的体验非常棒,希望他们能继续发布更新和更小尺寸的模型!:)
| 设置 | 设备 | 后端 | 模型 | 内存 | 延迟(完整推理) |
|:-|:-|:-|:-|:-|:-|
| llama.cpp RN桥接 | 三星S25 Ultra | CPU(由于某种原因无法让GPU工作) | Gemma 3 1B IT | 4–5 GB峰值 | ~7-10秒 |
| LiteRT-LM | 三星S25 Ultra | GPU/CPU | Gemma 4 E2B IT | 1.5–2 GB | 2–4秒(CPU再加1-2秒) |
| LiteRT-LM | iPhone 13 Pro Max | CPU(因Metal限制未测试GPU) | Gemma 4 E2B IT | 1.5–2 GB | 3–6秒 |
相似文章
在MLX中使用turboquant(及自定义内核)运行Gemma4 26b MoE
一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE,实现了比llama.cpp更快的提示处理和生成速度,且内存占用更低。实现方式包括本地部署说明。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
@rohanpaul_ai:Gemma 4(特别是其面向边缘优化的 E2B 与 E4B 量化版)通过 Locally 等应用,在 iPhone 上实现完全离线运行……
Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用,在 iPhone 上实现完全离线运行,借助 Apple Neural Engine 进行本地推理。
@googlegemma: Gemma 4 在手机上速度提升 3 倍!看看推测解码带来的不同!Multi-Token Predi…
Google 的 Gemma 4 通过推测解码和多 Token 预测,推理速度提升高达 3 倍,可实现高效的设备端部署。
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。