标签
用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验,相较于之前的llama.cpp设置,内存占用显著降低(1.5-2 GB vs 4-5 GB),推理速度更快(2-4秒 vs 7-10秒),测试机型包括三星S25 Ultra和iPhone 13 Pro Max。
Cactus-Compute 发布了 Needle,这是一个拥有 2600 万参数的开源模型,从 Gemini 蒸馏而来。它采用一种不含 MLP 的新型“简单注意力网络”架构,旨在实现高效的端侧函数调用。