Gemma 4 + LiteRT-LM在移动设备上：内存和性能远优于我的llama.cpp设置

Reddit r/LocalLLaMA 2026/05/15 13:02 工具

on-device-ai gemma-4 lite-rt-lm mobile-inference edge-ai llama-cpp performance-comparison

摘要

用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验，相较于之前的llama.cpp设置，内存占用显著降低（1.5-2 GB vs 4-5 GB），推理速度更快（2-4秒 vs 7-10秒），测试机型包括三星S25 Ultra和iPhone 13 Pro Max。

Hi r/LocalLLaMA - 我一直密切关注边缘AI生态系统，因为我认为这个领域潜力巨大，而且我坚信AI在日常生活任务中会变得更有用。在Gemma 4发布时，我已经在尝试本地AI，但即使是Gemma 3的小型变体，其内存占用也让我无法接受。我有一款三星旗舰机，能明显感觉到用户体验下降，系统时不时会杀死应用（更别提手机发热的问题了）。通过llama.cpp（带React Native桥接）运行Gemma 3，每次推理的内存占用大约在4-5GB，即使模型处于空闲状态也会占用约1GB内存，直到我释放它后内存才恢复正常。我绞尽脑汁寻找解决方案，然后看到了Gemma 4，通过AI Edge Gallery我注意到两点：1. CPU和GPU之间的速度差异巨大；2. 模型加载和响应非常迅速，我的手机运行良好，内存跳转几乎察觉不到。这时我才了解到LiteRTLM，以及它对边缘AI的高度优化。我成功让它跑了起来，当然也有一些小问题，我需要为Android和iOS编写一些原生模块（由于他们还没有提供Swift API，我只能用Objective-C！）。我还没有编写任何使用NPU的代码，但GPU和CPU推理效果不错。内存占用大约在1.5GB到2GB。我测试过的最老的手机是iPhone 13 Pro Max，运行良好。唯一不太满意的是，你必须释放模型才能回收内存，因为即使空闲时它也需要分配内存。虽然启动成本不算太高（在选定优选后端后），但还可以更快。我有一个力量追踪移动应用，目前是这样使用的： * 制定训练计划 * 在训练过程中检查动作表现并提供建议 * 训练结束后的跟进和反馈每次推理调用在GPU上需要2-4秒，CPU上再多1-2秒。我接下来计划： * 动作的图像识别（Gemma在这项功能上已被证明是一个有挑战性的模型，但通过一些好的提示词或许能实现） * 即时生成训练计划到目前为止，我对该模型和框架的体验非常棒，希望他们能继续发布更新和更小尺寸的模型！:) | 设置 | 设备 | 后端 | 模型 | 内存 | 延迟（完整推理） | |:-|:-|:-|:-|:-|:-| | llama.cpp RN桥接 | 三星S25 Ultra | CPU（由于某种原因无法让GPU工作） | Gemma 3 1B IT | 4–5 GB峰值 | ~7-10秒 | | LiteRT-LM | 三星S25 Ultra | GPU/CPU | Gemma 4 E2B IT | 1.5–2 GB | 2–4秒（CPU再加1-2秒） | | LiteRT-LM | iPhone 13 Pro Max | CPU（因Metal限制未测试GPU） | Gemma 4 E2B IT | 1.5–2 GB | 3–6秒 |

查看原文

Gemma 4 + LiteRT-LM在移动设备上：内存和性能远优于我的llama.cpp设置

相似文章

在MLX中使用turboquant（及自定义内核）运行Gemma4 26b MoE

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

@rohanpaul_ai：Gemma 4（特别是其面向边缘优化的 E2B 与 E4B 量化版）通过 Locally 等应用，在 iPhone 上实现完全离线运行……

@googlegemma: Gemma 4 在手机上速度提升 3 倍！看看推测解码带来的不同！Multi-Token Predi…

Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

提交意见反馈