标签
在Google Pixel 10 Pro上使用llama.cpp运行Gemma 12B模型,实现了每秒6.5个token的提示处理和每秒1.3个token的生成,功耗低于10瓦,展示了高效的设备端AI推理。
本文介绍了首个完全运行在移动NPU(Snapdragon X Elite上的Qualcomm Hexagon)上的端到端RAG流水线,相比CPU实现了高达18倍的LLM预填充加速和4倍的能耗降低,且无质量退化。
基准测试显示,在iPhone上本地运行Stable Diffusion 1.5,使用Realistic Vision V5.1 Hyper等优化模型,生成512x512图像最快仅需3.1秒,使得设备端AI图像生成变得切实可行。
本文认为,将Gemini更深地整合进Android的真正问题不仅仅是隐私,而是行动边界——即AI可以读取、建议、起草、更改、发送、购买或删除什么——并提出了针对不同AI代理级别的分级许可模型。
谷歌和苹果正将 AI 驱动的 'vibe coding' 引入移动端,允许用户通过自然语言提示创建自定义 Android 应用、小组件和快捷方式,正如在 Google I/O 2026 上所展示,并据报道将在 iOS 上实现。
Google AI Edge Gallery v1.0.13 和 v1.0.14 更新增加了对 Gemma 4 的多令牌预测支持、Pixel TPU 优化、实验性 MCP、新技能以及聊天历史保存功能,提升了设备端生成式 AI 能力。
OpenBMB 发布了 MiniCPM V4.6,这是一个专为移动设备优化的 1B 参数多模态大语言模型,采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能,声称在 iOS、Android 和 HarmonyOS 上原生运行时,吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。
AI扫描工具正在将普通手机变成全功能3D制作工作室,原本需要六位数费用才能完成的浏览器交互式3D漫游,现在用手机即可快速实现。
OpenGUI 是一个开源 AI 手机操控系统,让 AI 自动操控真实 Android 设备执行社交、调研等长时段移动端任务,支持通过飞书、Telegram、Discord 或 REST API 远程派发任务,底层架构分为 Plan Supervisor 和 Executor Graph 两层,支持 Claude、Qwen、豆包等多种模型。
ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。
Google 推出 Gemma 3n 预览版,这是一个移动优先的开源 AI 模型,针对手机、平板电脑和笔记本电脑上的本地推理进行了优化。该模型采用与高通和联发科等硬件合作伙伴共同开发的新架构,利用分层嵌入等创新技术,在最少内存占用(2-3GB)的情况下实现快速性能,同时支持多模态功能。
Google 升级了 Circle to Search 功能,利用 Gemini 3 实现对屏幕内容的整体场景识别,特别是时尚造型的多物品分解与虚拟试穿。该更新允许用户无需截图即可直接寻找替代商品并查看上身效果,提升了视觉搜索的无缝体验。