@googlegemma: Gemma 4 E2B 在英特尔AI PC上运行速度超快，得益于OpenVINO上的LiteRT NPU支持！预填充性能提升1.3倍……

X AI KOLs Timeline 2026/06/16 18:06 模型

gemma-4 openvino intel-ai-pc lite-rt npu performance llm

摘要

Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上，实现了预填充速度提升1.3倍、每瓦性能提升2.8倍，从而能够高效运行后台LLM任务。

Gemma 4 E2B 在英特尔AI PC上运行速度超快，得益于OpenVINO上的LiteRT NPU支持！ ⚡预填充性能比GPU快1.3倍 📈每瓦性能提升2.8倍 🔋运行后台LLM任务时无热节流或严重电池消耗 https://t.co/Bo1Tp6AsWL

查看原文

查看缓存全文

缓存时间: 2026/06/16 19:41

Gemma 4 E2B 在英特尔 AI PC 上飞速运行，得益于 OpenVINO 对 LiteRT NPU 的支持！

⚡相比 GPU，预填充性能提升 1.3 倍 📈每瓦性能提升 2.8 倍 🔋运行后台 LLM 任务时零热降频、不严重耗电 https://t.co/Bo1Tp6AsWL

相似文章

Reddit r/LocalLLaMA

用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验，相较于之前的llama.cpp设置，内存占用显著降低（1.5-2 GB vs 4-5 GB），推理速度更快（2-4秒 vs 7-10秒），测试机型包括三星S25 Ultra和iPhone 13 Pro Max。

Reddit r/LocalLLaMA

一项基准测试显示，使用 vLLM 搭配 DFlash 投机解码，在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s，相比基线实现了 2.56 倍的加速。

Reddit r/LocalLLaMA

开发者将Gemma 4 E4B在Google LiteRT引擎上的表现与Q4 GGUF量化版本进行对比，发现由于多令牌预测(MTP)，文本生成速度提升约2.4倍，但图像描述仅提升1.1倍。文章提供了一个面向OpenAI兼容端点的Python封装，但存在确定输出、单会话引擎等限制。

X AI KOLs Timeline

Google 的 Gemma 4 通过推测解码和多 Token 预测，推理速度提升高达 3 倍，可实现高效的设备端部署。

X AI KOLs Following

Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用，在 iPhone 上实现完全离线运行，借助 Apple Neural Engine 进行本地推理。