@rohanpaul_ai：Gemma 4（特别是其面向边缘优化的 E2B 与 E4B 量化版）通过 Locally 等应用，在 iPhone 上实现完全离线运行……

X AI KOLs Following 2026/04/19 20:19 模型

on-device edge-optimized quantized iphone offline

摘要

Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用，在 iPhone 上实现完全离线运行，借助 Apple Neural Engine 进行本地推理。

Gemma 4（特别是其面向边缘优化的 E2B 与 E4B 量化版）可通过 Locally AI 或 Google AI Edge Gallery 等应用在 iPhone 上完全离线运行。下载约 1.5 GB 的量化模型后，所有推理均在设备端通过 Apple Neural Engine 完成。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 10:51

Gemma 4（特别是其面向边缘优化的 E2B 和 E4B 变体）可通过 Locally AI 或 Google AI Edge Gallery 等应用，在 iPhone 上完全离线运行。下载约 1.5 GB 的量化模型后，所有推理都在设备端通过 Apple Neural Engine 完成。

相似文章

google/gemma-4-E4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 E4B 指令微调助手模型，该模型具备多模态能力、推理改进以及针对低延迟端侧应用优化的投机解码功能。

推出 Gemma 3n 预览版：功能强大、高效、移动优先的 AI

Google DeepMind Blog

Google 推出 Gemma 3n 预览版，这是一个移动优先的开源 AI 模型，针对手机、平板电脑和笔记本电脑上的本地推理进行了优化。该模型采用与高通和联发科等硬件合作伙伴共同开发的新架构，利用分层嵌入等创新技术，在最少内存占用（2-3GB）的情况下实现快速性能，同时支持多模态功能。

@ivanfioravanti：在 M5 Max 上用 oMLX 本地运行 @karpathy 的 autoresearch，借助 6bit 量化的 gemma-4-26b-a4b-it 训练 Gemma 4 E2B……

X AI KOLs Timeline

开发者 Ivan Fioravanti 展示如何在 Apple Silicon 上本地运行 Andrej Karpathy 的 autoresearch 项目，使用 6bit 量化 Gemma-4-26B 模型，暗示已成功训练 Gemma 4 E2B IT 变体。

Gemma 4 发布：前沿多模态智能，端侧可用

Hugging Face Blog

Google DeepMind 发布 Gemma 4，这是一系列前沿多模态模型，已在 Hugging Face 上以 Apache 2 协议开源，针对端侧部署进行了优化，并支持多种推理框架。

@googlegemma: Gemma 4 在手机上速度提升 3 倍！看看推测解码带来的不同！Multi-Token Predi…

X AI KOLs Timeline

Google 的 Gemma 4 通过推测解码和多 Token 预测，推理速度提升高达 3 倍，可实现高效的设备端部署。

提交意见反馈