Gemma 4 + LiteRT-LM在移动设备上:内存和性能远优于我的llama.cpp设置

Reddit r/LocalLLaMA 工具

摘要

用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验,相较于之前的llama.cpp设置,内存占用显著降低(1.5-2 GB vs 4-5 GB),推理速度更快(2-4秒 vs 7-10秒),测试机型包括三星S25 Ultra和iPhone 13 Pro Max。

Hi r/LocalLLaMA - 我一直密切关注边缘AI生态系统,因为我认为这个领域潜力巨大,而且我坚信AI在日常生活任务中会变得更有用。在Gemma 4发布时,我已经在尝试本地AI,但即使是Gemma 3的小型变体,其内存占用也让我无法接受。我有一款三星旗舰机,能明显感觉到用户体验下降,系统时不时会杀死应用(更别提手机发热的问题了)。通过llama.cpp(带React Native桥接)运行Gemma 3,每次推理的内存占用大约在4-5GB,即使模型处于空闲状态也会占用约1GB内存,直到我释放它后内存才恢复正常。我绞尽脑汁寻找解决方案,然后看到了Gemma 4,通过AI Edge Gallery我注意到两点:1. CPU和GPU之间的速度差异巨大;2. 模型加载和响应非常迅速,我的手机运行良好,内存跳转几乎察觉不到。这时我才了解到LiteRTLM,以及它对边缘AI的高度优化。我成功让它跑了起来,当然也有一些小问题,我需要为Android和iOS编写一些原生模块(由于他们还没有提供Swift API,我只能用Objective-C!)。我还没有编写任何使用NPU的代码,但GPU和CPU推理效果不错。内存占用大约在1.5GB到2GB。我测试过的最老的手机是iPhone 13 Pro Max,运行良好。唯一不太满意的是,你必须释放模型才能回收内存,因为即使空闲时它也需要分配内存。虽然启动成本不算太高(在选定优选后端后),但还可以更快。我有一个力量追踪移动应用,目前是这样使用的: * 制定训练计划 * 在训练过程中检查动作表现并提供建议 * 训练结束后的跟进和反馈 每次推理调用在GPU上需要2-4秒,CPU上再多1-2秒。我接下来计划: * 动作的图像识别(Gemma在这项功能上已被证明是一个有挑战性的模型,但通过一些好的提示词或许能实现) * 即时生成训练计划 到目前为止,我对该模型和框架的体验非常棒,希望他们能继续发布更新和更小尺寸的模型!:) | 设置 | 设备 | 后端 | 模型 | 内存 | 延迟(完整推理) | |:-|:-|:-|:-|:-|:-| | llama.cpp RN桥接 | 三星S25 Ultra | CPU(由于某种原因无法让GPU工作) | Gemma 3 1B IT | 4–5 GB峰值 | ~7-10秒 | | LiteRT-LM | 三星S25 Ultra | GPU/CPU | Gemma 4 E2B IT | 1.5–2 GB | 2–4秒(CPU再加1-2秒) | | LiteRT-LM | iPhone 13 Pro Max | CPU(因Metal限制未测试GPU) | Gemma 4 E2B IT | 1.5–2 GB | 3–6秒 |
查看原文

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。

Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

Hugging Face Models Trending

SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。