@rohanpaul_ai:Gemma 4(特别是其面向边缘优化的 E2B 与 E4B 量化版)通过 Locally 等应用,在 iPhone 上实现完全离线运行……
摘要
Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用,在 iPhone 上实现完全离线运行,借助 Apple Neural Engine 进行本地推理。
查看缓存全文
缓存时间: 2026/04/21 10:51
Gemma 4(特别是其面向边缘优化的 E2B 和 E4B 变体)可通过 Locally AI 或 Google AI Edge Gallery 等应用,在 iPhone 上完全离线运行。下载约 1.5 GB 的量化模型后,所有推理都在设备端通过 Apple Neural Engine 完成。
相似文章
google/gemma-4-E4B-it-assistant
Google DeepMind 发布了 Gemma 4 E4B 指令微调助手模型,该模型具备多模态能力、推理改进以及针对低延迟端侧应用优化的投机解码功能。
推出 Gemma 3n 预览版:功能强大、高效、移动优先的 AI
Google 推出 Gemma 3n 预览版,这是一个移动优先的开源 AI 模型,针对手机、平板电脑和笔记本电脑上的本地推理进行了优化。该模型采用与高通和联发科等硬件合作伙伴共同开发的新架构,利用分层嵌入等创新技术,在最少内存占用(2-3GB)的情况下实现快速性能,同时支持多模态功能。
@ivanfioravanti:在 M5 Max 上用 oMLX 本地运行 @karpathy 的 autoresearch,借助 6bit 量化的 gemma-4-26b-a4b-it 训练 Gemma 4 E2B……
开发者 Ivan Fioravanti 展示如何在 Apple Silicon 上本地运行 Andrej Karpathy 的 autoresearch 项目,使用 6bit 量化 Gemma-4-26B 模型,暗示已成功训练 Gemma 4 E2B IT 变体。
Gemma 4 发布:前沿多模态智能,端侧可用
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
@googlegemma: Gemma 4 在手机上速度提升 3 倍!看看推测解码带来的不同!Multi-Token Predi…
Google 的 Gemma 4 通过推测解码和多 Token 预测,推理速度提升高达 3 倍,可实现高效的设备端部署。