标签
谷歌推出一款免费AI语音听写应用,由Gemma 4驱动,支持iOS和Mac,完全本地运行,无需订阅。
微软在 Build 2026 上宣布了两款新的设备端 AI 模型:Aion 1.0 Instruct(一款开放权重的小型语言模型)和 Aion 1.0 Plan(一款 140 亿参数的推理与工具调用模型,适用于本地智能体工作流)。
一个开源项目,利用手机麦克风进行实时呼吸检测与生物反馈,在设备本地处理音频,无需穿戴设备或上传云端,以增强自我觉察能力。
NVIDIA 发布了 RTX Spark PC 和一系列更新,以在 RTX 和 DGX 生态系统中支持本地 AI 智能体,包括 OpenShell 运行时即将登陆 Windows、NemoClaw 扩展、性能提升以及与 Adobe 和 H Company 的集成。
MiniCPM5-1B 是 OpenBMB 推出的一个拥有 10 亿参数的模型,在 AIME 2025 和 τ2-Bench Telecom 上取得了令人瞩目的成绩,超越了更大的模型。它从单个检查点同时提供快速模式和推理模式,这得益于包括监督微调、强化学习和在线策略蒸馏在内的三阶段后训练过程。
Google DeepMind 发布了 Magenta RealTime 2,这是一个开源音乐生成模型,支持设备端流式处理,可通过文本、音频示例和 MIDI 实现低延迟控制。
UI-KOBE 提出了一种框架,通过构建和利用特定应用的知识图谱来增强轻量级移动GUI代理,从而提高任务规划和执行效率。
LoRDBA将LoRA的浮点低秩因子替换为二元符号载体和通道级缩放,实现了高效的设备上微调,显著减少了占用空间,延迟开销极小,质量与fp16相当。
MobileMoE 引入了高效的端侧混合专家语言模型,参数规模低于十亿,在性能和效率上均优于密集基线模型和现有的 MoE 模型。这些模型在开源数据集上训练,并在商用智能手机上展现出显著的加速效果。
OpenBMB 发布了 MiniCPM5-1B,这是一个密集型1B参数Transformer模型,在开源1B级模型中达到SOTA,专为设备端部署设计,支持混合推理和长上下文。
BitCPM 是一个来自 ModelBest、清华大学和 OpenBMB 的新开源模型,它使用三元权重(-1,0,1)在手机上运行全尺寸AI模型。
Gemma 4 是一款针对 Apple Silicon 优化的 4 位量化模型,能够在 Mac 设备上实现快速本地推理,减少对云计算的依赖。
Supertonic 3是一个99M参数的开源TTS模型,完全在设备上运行,在树莓派上击败了ElevenLabs,在笔记本电脑CPU上的性能是实时的167倍。
Google Gemma 展示了 Gemma 4 E4B 使用 Argent 自主导航和操控 iOS 模拟器,展现了设备端自动化的能力。
推出PhoneDiffusion,一款适用于iPhone的本地AI图像生成器,生成时间低于5秒,注重隐私,无需账户。
Hy-MT2 is a new open-source multilingual translation model from Tencent Hy that supports 33 languages, offers flexible instruction capabilities, and achieves 2-bit quantization under 500MB for on-device deployment.
腾讯混元发布了Hy-MT2翻译模型系列,最高含30B参数的MoE模型,支持33种语言,并经过量化可用于设备端。
微软发布了Fara-7B,一个70亿参数的小型语言模型,可以自主控制电脑执行点击、滚动、填写表单等任务,在设备上运行,并在基准测试中击败了OpenAI的computer-use agent等更大模型。
Google 的 Gemma 4 E2B 通过 MLX 优化在 iPhone 17 Pro 上运行演示,达到约 40 tokens/秒,支持 128K 上下文以及离线思考模式,适用于编程和数学。