React Native ExecuTorch 现已支持 Gemma 4(Vulkan 和 MLX 加速)
摘要
react-native-executorch 库现已集成 Google 的 Gemma 4 模型,可实现完全离线的 GPU 加速推理,在 Android 上使用 Vulkan 委托,在 Apple Silicon 上使用 MLX 委托。
我们已将 Gemma 4 集成到 **react-native-executorch** 中。现在你可以完全离线地在 React Native 应用中运行它,通过 Android 上的 Vulkan 委托和 Apple Silicon 上的 MLX 委托实现 GPU 加速。附带的演示应用链接请点击[此处](https://github.com/software-mansion/react-native-executorch/tree/main/apps/llm)。
相似文章
从 RTX 到 Spark:NVIDIA 加速 Gemma 4 赋能本地智能体 AI
NVIDIA 与谷歌合作优化 Gemma 4 模型,以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署,从而支持高效的端侧智能体 AI,具备推理、编程、多模态能力以及 35 多种语言的支持。
@rohanpaul_ai:Gemma 4(特别是其面向边缘优化的 E2B 与 E4B 量化版)通过 Locally 等应用,在 iPhone 上实现完全离线运行……
Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用,在 iPhone 上实现完全离线运行,借助 Apple Neural Engine 进行本地推理。
@PyTorch:ExecuTorch 现有一个 MLX 委托,可在 Apple Silicon GPU 上运行 PyTorch 模型。它支持大语言模型、语音转文字、以及……
ExecuTorch 现有一个 MLX 委托,可在 Apple Silicon Mac 上为 PyTorch 模型提供 GPU 加速推理,支持大语言模型、语音转文字以及通过 TorchAO 进行量化的 MoE 模型。
Gemma 4 + LiteRT-LM在移动设备上:内存和性能远优于我的llama.cpp设置
用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验,相较于之前的llama.cpp设置,内存占用显著降低(1.5-2 GB vs 4-5 GB),推理速度更快(2-4秒 vs 7-10秒),测试机型包括三星S25 Ultra和iPhone 13 Pro Max。
在MLX中使用turboquant(及自定义内核)运行Gemma4 26b MoE
一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE,实现了比llama.cpp更快的提示处理和生成速度,且内存占用更低。实现方式包括本地部署说明。