mobile-inference

#mobile-inference

Gemma 4 + LiteRT-LM在移动设备上：内存和性能远优于我的llama.cpp设置

Reddit r/LocalLLaMA ↗ · 2026-05-15

用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验，相较于之前的llama.cpp设置，内存占用显著降低（1.5-2 GB vs 4-5 GB），推理速度更快（2-4秒 vs 7-10秒），测试机型包括三星S25 Ultra和iPhone 13 Pro Max。

0 人收藏 0 人点赞

#mobile-inference

Reddit r/LocalLLaMA ↗ · 2026-05-12

Cactus-Compute 发布了 Needle，这是一个拥有 2600 万参数的开源模型，从 Gemini 蒸馏而来。它采用一种不含 MLP 的新型“简单注意力网络”架构，旨在实现高效的端侧函数调用。

0 人收藏 0 人点赞