mobile-inference

标签

Cards List
#mobile-inference

Gemma 4 + LiteRT-LM在移动设备上:内存和性能远优于我的llama.cpp设置

Reddit r/LocalLLaMA · 2026-05-15

用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验,相较于之前的llama.cpp设置,内存占用显著降低(1.5-2 GB vs 4-5 GB),推理速度更快(2-4秒 vs 7-10秒),测试机型包括三星S25 Ultra和iPhone 13 Pro Max。

0 人收藏 0 人点赞
#mobile-inference

Needle:我们将 Gemini 的函数调用能力蒸馏进了一个 2600 万参数的模型

Reddit r/LocalLLaMA · 2026-05-12

Cactus-Compute 发布了 Needle,这是一个拥有 2600 万参数的开源模型,从 Gemini 蒸馏而来。它采用一种不含 MLP 的新型“简单注意力网络”架构,旨在实现高效的端侧函数调用。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈